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公司 CEO， 擅 长 厘清 并 简化 复杂 的 业务 流 
程 ， 能 够 将 信息 技术 、 财 务 和 运营 结合 在 
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Spark Contributor， 大 数据 架构 师 ， 著 
有 《Spark 海 量 数据 处 理 : 技术 详解 与 平 
台 实 战 》《 Hadoop 海 量 数 据 处 理 : 技术 详 
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效 字 版权 巨 明 


图 灵 社 区 的 电子 书 没有 采用 专 有 客 
户 端 ， 您 可 以 在 任意 设备 上 ， 5 全 
己 喜 欢 的 浏览 器 和 PDF 阅读 器 进 
阅读 。 

但 您 购买 的 电子 书 仅 供 您 个 人 使 用 ， 
未 经 授权 ， 不 得 进行 传播 。 

我 们 愿意 相信 读者 具有 这 样 的 民 知 
和 党 悟 ， 与 我 们 共同 保护 基 识 产权 。 


如 果 购 买 者 有 侵权 行为 ， 我 们 可 能 
对 该 用 尸 实 施 包 括 但 不 限于 关闭 该 
帐号 等 维权 措施 ， 并 可 能 退 究 法 律 
贡 任 。 
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内 容 提 要 

本 书展 示 了 如 何在 业务 场景 中 应 用 机 器 学 习 ， 以 使 业务 流程 更 快 、 更 灵活 地 适应 变化 。 本 书 分 为 三 个 部 
分 。 第 一 部 分 介绍 有 效 的 决策 如 何 帮助 公司 提高 生产 率 以 保持 竞争 力 ， 阐 释 如 何 使 用 开源 工具 和 AWS 工 
具 将 机 器 学 习 应 用 于 业务 决策 中 。 第 二 部 分 以 虚拟 人 物 为 主线 ， 研 究 六 个 场景 ， 这 些 场景 展示 了 如 何 使 用 
机 器 学 习 来 制定 各 种 业务 决策 。 第 三 部 分 讨论 如 何在 Web 上 设置 和 共享 机 器 学 习 模 型 ， 以 便 公司 使 用 机 器 
学 习 进 行 决策 ， 还 介绍 了 一 些 案例 ， 表 明 公司 如 何 应 对 使 用 机 器 学 习 进行 决策 时 所 带 来 的 变化 。 

本 书 适合 那些 刚 开始 接触 机 器 学 习 的 人 ， 也 适合 技术 主管 、 机 器 学 习 从 业者 以 及 有 兴趣 通过 机 器 学 习 
技术 提升 工作 效率 的 商务 人 士 。 
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本 书 中 的 场景 均 涵 盖 典 型 公司 的 运营 相关 领域 . 第 3 章 和 第 4 章 (挽留 
及 客户 ， 第 2 章 和 第 5 章 (采购 审批 和 发 票 审核 ) 涉及 供应 商 ， 第 6 章 和 第 
施 管 理 ( 能 耗 预测 )。 
支持 (第 4 章 ) 采购 审批 (第 2 音 ) 
客户 供应 商 
挽留 (第 3 音 ) 发 票 审核 (第 5 章 ) 
你 的 公司 
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4《 玮 非 子 》 中 有 这 样 一 句 话 :“ 世 之 显 学 ， 癸 墨 也 。” 斗 转 星 移 ， 今 天 当 我 们 环视 四 周 ， 试 图 
找 出 那个 对 于 当下 乃至 未 来 发 展 拥有 巨大 影响 的 “ 显 学 ”时 ,“ 人 工 智 能 ”或 许 就 是 那个 众 口 一 
词 的 答案 。 

近 五 年 以 来 ,机 入 学 习 方 法 在 人 工 乔 能 方面 取得 了 瞩目 的 成 就 。 我 们 可 能 并 没有 意识 到 ,机 
需 学 习 的 应 用 早已 渗 和 人 我 们 的 工作 与 生活 。 当 我 们 使 用 搜索 引擎 搜索 的 时 候 ,， 机 顺 学 习 被 用 于 大 
助 搜索 引擎 判断 哪个 结果 更 匹配 我 们 的 想法 。 大 部 分 垃圾 邮件 已 不 再 构成 困扰 ,这 是 因为 机 桥 学 
习 已 经 为 我 们 做 了 过 滤 。 我 们 在 网 站 上 购物 或 者 去 视频 网 站 消 遗 的 时 候 , 机 楷 学 习 提 供 推荐 商品 
并 帮助 生成 字条 。 可 以 说 ,在 现代 的 信息 社会 中 ,在 互联 网 沁 化 的 时 代 ， 我 们 无 时 无 刻 不 受 益 于 
机 需 学 习 市 来 的 诸多 好 处 。 

传统 上 , 我 们 解决 问题 主要 依赖 开发 人 员 针 对 具体 问题 写 出 特定 程序 。 不 同 于 传统 的 解决 方 
案 ， 以 机 需 学 习 为 代表 的 智能 化 方案 不 是 为 计算 机 设计 出 一 个 解决 问题 的 特定 方法 ,而 是 让 计算 
机 在 一 个 场景 中 基于 模型 算法 目 己 找到 最 佳 答 和 案 。 由 此 可 以 看 出 ,机 需 学 习 方法 通 稍 包含 三 个 重 
要 部 分 : 场景 、 算 法 和 数据 。 也 就 是 说 ， 当 涉及 人 工 智能 领域 的 应 用 实践 时 ， 除 了 海量 的 数据 、 
精妙 的 算法 之 外 , 还 需要 考虑 特定 领域 的 场景 化 实践 。 从 以 往 的 经 验 来 看 ,一 个 成 功 的 机 天 学 习 
项 目 就 是 从 找到 正确 的 应 用 场景 开始 的 。 

在 机 带 学 习 领 域 最 典型 的 两 大 类 问题 就 是 附 类 和 分 类 。 因 此 无 论 哪 一 个 场景 ， 只 要 能 对 应 
上 上 聚 类 和 分 类 的 问题 ,大 多 是 已 经 很 成 熟 的 应 用 场景 了 。 但 聚焦 到 公司 的 业务 自动 化 场景 中 时 ， 
我 们 就 遇 到 了 巨大 的 挑战 。 现 有 的 大 量 关 于 机 和 带 学 习 的 知识 与 经 验 , 大 多 以 机 融 学 习 的 研究 为 中 
心 。 如 果 以 豪 饪 来 类 比 , 那么 现 有 的 这 些 知 识 传 授 的 是 如 何 使 用 烤箱 之 类 的 方法 ,而 不 是 如 何 毫 
制 可 口 食物 的 创新 菜谱 ,在 大 多 数 公司 的 业务 自动 化 场景 中 , 我 们 需要 的 仪 仪 是 襄 饪 某 种 具体 食 
物 的 方法 ,， 即 解决 公司 存在 的 真实 问题 。 这 一 问题 不 能 归咎 于 公司 ,因为 当今 的 人 工 智能 领域 存 
在 的 问题 之 一 就 是 , 一 味 地 关注 学 术 人 研究 而 非 工 程 实践 。 我 们 硕 望 看 到 的 适用 于 公司 的 机 天 学 习 
是 , 它 可 以 在 公司 中 为 任何 人 所 用 ,并 且 可 以 解决 一 些 问题 ， 从 而 立竿见影 地 提高 公司 目 动 化 效 
率 ， 如 应 付 账 款 ( 供应 商 发 票 ) 设施 管理 ( 功 耗 预测 )、 客 户 支 持 ( 支持 通知 单 ) 和 销售 ( 客户 
保留 ) 等 。 

本 书 可 以 说 是 将 机 融 学 习 刘 和 公司 目 动 化 这 个 场景 的 最 佳 实践 指南 ， 理 由 如 下 : 第 一 ,作者 
道 格 . 哈 金 与 理 查 德 . 尼 科 和 尔 目 身 就 在 这 个 领域 拥有 二 十 多 年 的 实战 经 验 ; 第 二 ， 书 中 列举 的 六 
大 场景 均 是 公司 通用 日 具有 实践 意义 的 领域 ;第 三 , 书 中 的 实践 基于 AWS( Amazon Web Services ) 
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推出 的 机 规 学 习 平 台 SageMaker 以 我 的 经 验 来 看 ， 这 是 一 个 面 癌 机 硕 学 习 应 用 开发 的 成 熟 、 
高 效 的 平台 工具 ， 可 以 极 大 地 降低 开发 的 门槛 并 提高 开发 的 效率 。 

公司 对 于 创新 和 生产 效率 提高 的 需求 永 无 止境 ， 而 成 为 “机 带 学 习 型 公司 ”将 是 公司 达成 这 
个 目标 的 有 效 手 段 。 机 融 学 习 对 公司 的 真正 好 处 在 于 , 它 使 公司 能 够 构建 可 适应 变化 的 决策 应 用 
程序 。 我们 不 青 需 要 编写 数 十 个 或 数 百 个 伪 化 的 业务 规则 ,而 是 输入 过 去 的 好 坏 决 策 的 示例 ， 然 
后 让 算法 根据 当前 场景 与 过 去 数据 的 相似 上 度 来 做 出 决策 。 从 这 一 点 来 看 ， 对 于 公司 来 说 ， 机 天 学 
习 几 乎 拥有 改进 一 切 的 潜力 。 

感谢 两 位 作者 分 享 了 他 们 的 经 验 , 感谢 我 的 朋友 范 东 来 为 翻译 本 书 所 付出 的 辛 否 和 努力 。 在 
这 些 知 识 的 积累 之 上 ,和 希望 有 更 多 的 公司 在 场景 化 机 各 学 习 的 实践 中 为 我 们 续 写 新 的 篇 草 。 
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本 书展 示 了 如 何在 公司 中 应 用 机 融 学 习 ， 以 使 业务 流程 更 快 、 更 灵活 地 适应 变化 。 本 书 适 合 
那些 刚 开 始 接触 机 天 学 习 的 人 ， 或 者 在 机 需 学 习 方 面 有 些 经 验 但 想 了 解 如 何在 实践 中 应 用 它 的 人 。 

基于 在 目 动 化 业务 流程 和 实现 机 融 学 习 应 用 程序 方面 的 经 验 , 我 们 希望 写 一 本 书 , 让 所 有 人 
都 可 以 开始 在 公司 中 使 用 机 需 学 习 。 对 任何 人 来 说 ， 需 要 注意 的 不 是 你 要 有 一 定 的 技术 背 景 ， 而 
是 你 愿意 花 时 间 运 行 代码 以 了 解 发 后 了 什么 及 其 原因 。 

我 们 研究 不 同 公司 内 部 的 各 种 不 同 职能 ， 包 括 应 付 账 款 〈 供 应 商 发 票 )、 设 施 管 理 (能 耗 预 
测 入 客户 文 择 〈 文 持 请 求 ) 和 销售 ( 客户 保留 )。 目 的 是 让 你 对 机 顶 学 习 淤 在 应 用 的 范围 和 规模 
有 一 些 了 解 ， 并 茎 励 你 目 己 去 发 现 新 的 业务 应 用 。 

本 书 的 另 一 个 重点 是 演示 如 何 使 用 Amazon SageMaker 云 服务 来 快速 、 经 济 、 高 效 地 将 你 的 
业务 构想 变 为 现实 。 我 们 提出 的 大 多 数 想 法 可 以 通过 其 他 服务 ( 例如 Google Cloud 或 Microsoft 
Azure ) 来 实现 ， 但 是 这 些 服务 之 间 差 异 非常 大 ， 以 至 于 涵盖 多 个 供应 商会 超出 本 书 的 范围 。 

乔 望 你 喜欢 我 们 的 书 ， 也 和 希望 你 能 通过 应 用 其 中 的 技术 极 大 地 提高 公司 的 生产 率 。 如 采 你 
有 任何 疑问 、 建 议 , 或 想 发 表 评 论 , 或 解决 了 某 些 问题 ,请 在 liveBook 上 与 我 们 联系 。 期 待 你 的 
来 信 。 
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天 于 本 叫 





公司 正 处 于 生产 率 大 幅 跃 升 的 风口 浪 尖 。 如 今 , 成 十 上 万 的 人 参与 到 流程 工作 中 去 , 他 们 从 
一 个 源头 获取 信息 ， 并 将 其 发 送 到 为 一 个 地 方 。 下 面 就 以 采购 和 应 付 账 蒜 为 例 。 

口 采购 人 员 帮 助 客户 创建 一 个 采购 订单 ， 然 后 将 其 发 送 给 供应 丙 。 

口 供应 商 的 订单 处 理 人 员 接 受 采 购 订 单 ， 并 将 其 录 和 人 订单 处 理 系 统 ， 接 春 在 该 系统 中 履行 

订单 ， 并 将 赁 物 运 送 给 下 单 的 客户 。 

口 客户 装 翻 码头 的 工作 人 员 接 收 赁 物 ， 财 务 人 员 将 发 票 输入 客户 的 财务 系统 。 

在 未 来 十 年 内 ,几乎 每 家 公司 的 所 有 这 些 流程 都 将 实现 完全 目 动 化 , 并 且 机 右 学 习 将 在 流程 
每 个 阶段 的 日 动 化 决策 点 中 扮演 重要 角色 。 它 将 帮助 公司 做 出 以 下 决定 。 

口 批准 订单 的 人 是 否 有 权 这 么 做 ? 

口 缺 人质 产品 是 否 可 以 用 其 他 产品 代 答 ? 

口 如 末 俩 应 商 特 换 了 产品 ， 收 任 方 会 接受 吗 ? 

DO 可 以 根据 发 票 和 直接 付 款 还 是 应 该 检查 发 票 ? 

机 条 学 习 对 于 公司 的 真正 好 处 是 , 它 可 以 让 你 构建 能 够 适应 变化 的 决策 应 用 程序 。 你 无 须 在 
系统 中 编写 数 十 条 或 者 数 百 条 规则 ,而 是 输入 过 去 正确 的 和 错误 的 决策 示例 , 然后 让 机 带 根 据 当 
前 场景 与 过 去 示例 的 相似 上 度 来 进行 决策 。 

这 样 做 的 好 处 是 ， 当 遇 到 全 新 的 输入 时 ， 系 统 不 会 中 断 。 而 挑战 在 于 ， 交 付 机 融 学 习 项 目 与 
交付 正常 的 工 ( 信息 技 术 ) 项 目 所 采用 的 思维 方式 和 方法 不 同 。 

在 正常 的 全 项 目 中 ， 你 可 以 测试 每 条 规则 以 确保 它们 正常 运行 。 而 在 机 可 学 习 项 目 中 ,你 只 
能 进行 测试 以 查看 算法 是 否 对 测试 场景 做 出 了 适当 响应 。 对 于 全 新 的 输入 , 你 也 不 知道 它 将 如 何 应 
对 。 相 信保 障 措 施 能 在 算法 无 法 正确 啊 应 时 进行 干预 ,你 和 利益 相关 者 就 要 能 够 接受 这 种 不 确定 性 。 


目标 读者 


本 书目 标 读者 是 那些 更 喜欢 使 用 Excel 而 不 是 使 用 Python 之 类 编程 语言 的 人 。 每 章 都 包含 一 
个 完整 的 Jupyter 笔记 本 ， 该 笔记 本 将 创建 机 天 学 习 模型 、 部 署 模型 并 根据 该 音准 备 的 数据 集运 
行 模型 。 你 无 须 进行 任何 编码 即 可 碍 看 运行 的 代码 。 

然后 ， 每 一 章 都 会 带 你 一 步 步 了 解 代 码 ,， 让 你 了 解 它 是 如 何 工作 的 。 只 要 稍 加 修改 ， 你 就 可 
以 直接 将 代码 应 用 到 月 己 的 数据 中 。 学 完 本 书 ， 你 应 该 能 够 处 理 公 司 内 的 各 种 机 厅 学 习 项 目 。 


















































X 关于 本 书 


本 书 组 织 万 式 : 路 线 图 


本 书 分 为 三 个 部 分 。 

第 一 部 分 自 完 介绍 了 公司 需要 提高 生产 率 以 保持 苋 争 力 的 原因 , 并 解释 了 有 效 的 决策 是 如 何 
在 其 中 发 挥 作用 的 ; 然后 阐释 了 为 什么 机 带 学 习 是 一 种 很 好 的 商业 决策 方式 , 以 及 如 何 使 用 开源 
工具 和 AWS 工具 将 机 需 学 习 应 用 于 业务 决策 中 。 

第 二 部 分 人 研究 了 六 个 场景 〈 每 草 一 个 场景 )， 这 些 场景 展示 了 如 何 使 用 机 融 学 习 来 制定 业务 
决策 。 这 些 场 景 关注 的 是 普通 公司 如 何 使 用 机 需 学 习 ， 而 不 是 Facebook、Google 或 Amazon 如 何 
使 用 机 器 学 习 。 

第 三 部 分 讨论 了 如 何在 Web 上 设置 和 共享 你 的 机 楷 学 习 模 型 ， 以 便 你 的 公司 可 以 使 用 机 如 
学 习 进行 决策 ; 然后 介绍 了 一 些 案 例 研 究 , 这 些 肥 例 研 究 表 明了 公司 如 何 应 对 使 用 机 带 学 习 进 行 
决 东 时 所 市 来 的 变化 。 


天 于 代码 


第 二 部 分 的 每 一 章 都 为 你 提供 了 Jupyter 笔记 本 以 及 一 个 或 多 个 示例 数据 集 ， 你 可 以 将 其 上 
传 到 AWS SageMaker 并 运行 。 第 三 部 分 提供 了 设置 无 服务 大 API 的 代码 ， 以 便 为 网 络 用 户 提供 
预测 结果 。 

可 以 在 AWS SageMaker 上 运行 并 编写 本 书 第 二 部 分 中 使 用 的 代码 。 你 无 须 在 本 地 安装 任何 
东西 ， 可 以 用 任何 联网 的 计算 机 (甚至 是 Google Chromebook ) 来 运行 这 些 代 人 码 。 要 设置 本 书 第 
三 部 分 中 的 无 服务 大 API， 你 需要 在 运行 macOS、Windows 或 Linux 操作 系统 的 笔记 本 计算 机 上 
安装 Python。 

本 书 中 包含 了 很 多 源 代码 的 例子 , 有 的 是 代码 清单 , 有 的 位 于 正文 段落 中 。 在 这 两 种 情况 下 ， 
源 代 码 都 是 以 fijxed-width font like this 这 样 的 等 宽 字 体 显示 的 ， 以 便 与 普通 文本 分 开 。 

在 许多 情况 下 , 原始 源 代 码 的 格式 已 重新 处 理 过 ; 我 们 添加 了 换行 符 并 修改 了 缩 进 以 适应 页 
面 宽度 。 许 多 代码 清单 中 有 代码 注解 《注释 )， 突 出 了 重要 的 概念 。 此 外 ， 当 文本 中 描述 了 代码 
时 ， 通 常会 将 源 代码 中 的 注释 从 代码 清单 中 删除 。 

本 书 中 的 示例 代码 可 从 Manning 网 站 和 GitHub 网 站 下 载 。? 

































































liveBook 论坛 








购买 本 书 可 以 免费 访问 由 Manning Publications 运营 的 私有 网 络 论坛 ， 你 可 以 在 其 中 对 本 书 
发 表 评 论 、 提 出 技术 问题 并 获得 作者 和 其 他 用 户 的 帮助 。 要 访问 该 论坛 ， 请 访问 https://livebook. 
manning.com/book/machine-learning-forbusiness/welcome/v-6/。 你 还 可 以 在 https://livebook.manning. 
com/#1/discussion 上 了 解 有 关 Manning 论坛 和 行为 准则 的 更 多 信息 。 











中 读者 也 可 以 访问 图 灵 社 区 本 书页 面 下 载 示 例 代 码 : ituring.cn/book/2803。 一 一 编者 注 


关于 本 书 Xi 








Manning 厌 话 为 读者 提供 一 个 场所 ， 使 各 个 读者 之 间 以 及 读者 与 作者 之 间 进 行 有 意义 的 对 
话 。 这 不 是 作者 对 任何 特定 参与 程度 的 承 话 ， 他 们 对 论坛 的 页 献 仍然 是 日 愿 的 ( 而 且 是 无 途 的 ) 
建议 你 尝试 回 他 们 提出 一 些 有 挑战 性 的 问题 ， 以 免 他 们 失去 兴趣 ! 只 要 本 书 仍然 在 销售 ,就 可 以 
从 出 版 商 的 网 站 上 访问 该 论坛 和 以 前 的 讨论 的 存档 。 


关于 作者 


理 查 德 和 道 格 曾 在 同一 家 采购 软件 公司 工作 。 在 理 查 德 被 聘 为 数据 工程 师 , 帮助 该 公司 对 数 
百 万 种 产品 进行 分 类 后 不 入 ， 道 格 出 任 该 公司 的 CEO。 

离开 公司 后 ， 道 格 建立 了 Managed Functions， 这 是 一 个 集成 /机 需 学 习 平 台 ， 使 用 Python 和 
Jupyter 笔记 本 来 实现 业务 流程 目 动 化 。 理 查 德 继续 在 澳大利亚 的 悉尼 大 学 完成 数据 科学 硕士 学 
位 ， 现 在 担任 Faethm 的 高 级 数据 科学 家 。 


天 于 封面 


本 书 封 面 上 的 插图 标题 是 “Costumes civils actuels de tous les peuples connus”， 意 思 是 “目前 所 
有 已 知 民族 的 平民 服装 ”。 这 幅 插 图 选 自 Jacques Grasset de Saint-Sauveur ( 1757 一 1810 ) 于 1797 年 
在 法 国 出 版 的 Costumes de Différents Pays， 其 中 收集 了 二 着 各 个 国家 及 地 区 服饰 的 人 物 画 像 。 

每 幅 插图 都 是 精细 的 手绘 并 且 手 工 上 色 。Jacques Grasset de Saint-Sauveur 的 作品 集 丰 富 多 样 ， 
让 我 们 清楚 地 看 到 了 200 多 年 前 世界 上 的 城镇 和 地 区 在 文化 上 的 差异 。 由 于 役 此 隔绝 ， 人 们 说 痢 
不 同 的 方言 和 语言 。 无 论 是 在 街道 还 是 乡间 ,很 容 多 就 能 通过 衣着 辨别 出 人 们 居住 的 地 方 ， 以 及 
他 们 的 职业 和 在 生活 中 的 地 位 。 

从 那 以 后 , 我 们 的 穿 衣 方式 发 生 了 变化 ， 当 时 如 此 丰 军 的 地 域 差 异 已 逐渐 消失 。 现 在 ,我 们 
已 经 很 难 分 辨 出 不 同 大 陆 的 居民 ， 更 不 用 说 不 同 的 城镇 、 地 区 和 国家 了。 也 许 , 我 们 用 文化 的 多 
样 性 换 来 了 更 多 样 的 个 人 和 生活， 当然， 也 换 来 了 更 多 样 、 更 快 节奏 的 科技 生活 。 

在 这 个 图 书 同 质 化 的 年 代 ，Manning 将 Jacques Grasset de Saint-Sauveur 的 图 片 作 为 图 书 封 面 ， 
将 两 个 世纪 前 各 个 地 区 生活 的 丰 定 多 样 性 还 原 出 来 ， 以 此 赞扬 了 计算 机 事业 的 创造 性 和 主动 性 。 


电子 书 
扫描 如 下 二 维 码 ， 即 可 购 关 本 书 中 文 版 电子 书 。 
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场景 化 机 颖 学 习 


未 来 十 年 ， 随 着 公司 将 那些 重要 但 耗费 人 力 的 工作 目 动 化 , 公司 的 生产 率 将 大 大 提高 。 这 些 
工作 包括 审批 采购 订单 、 评 佑 客户 流失 风险 、 确 定 应 该 立即 上 报 的 文 持 请 求 、 审 核 供应 商 发 票 以 
及 预测 运 品 趋势 ( 比如 功 耗 ) 等 。 

第 一 部 分 研究 了 为 什么 会 出 现 这 种 趋势 ,以 及 机 紫 学 习 在 这 股 浪 潮 中 的 作用 。 无 法 努力 赶 上 
这 一 浪 漳 的 公司 会 很 快 被 范 争 对 手 抛 在 后 面 。 





机 器 学 习 如 何 应 用 于 业务 





本 章 要 点 

口 为 什么 我 们 的 业务 系统 如 此 糟糕 
口 什么 是 机 器 学 习 

口 机 需 学 习 是 生产 率 的 关键 

口 机 需 学 习 和 业务 自动 化 相 结合 
口 在 公司 内 部 使 用 机 天 学 习 








数 十 年 来 ,技术 专家 一 直 预 测 ， 公 司 正 处 于 生产 率 大 幅 跃 升 的 风口 浪 尖 ,但 到 目前 为 止 ， 这 
一 切 并 没有 发 生 。 大 多 数 公 司 在 应 付 账 蒜 、 账 单 、 工 资 单 、 理 赔 管 理 、 客 户 支 持 、 设 施 管理 等 方 
面 , 仍然 使 用 人 力 来 执行 重复 性 任务 。 例如 ,以 下 所 有 小 决策 都 会 造成 延误 , 使 你 ( 和 你 的 同事 ) 
吧 应 速度 不 及 预期 ， 效 率 低 于 公司 的 要 求 。 

口 为 了 提交 请 假 申 请 ， 你 必须 单 击 十 几 个 步骤 ， 每 个 步 又 都 需要 你 输入 系统 本 应 知道 的 信 

息 ， 或 者 做 出 系统 本 应 能 从 你 的 目的 推 产 出 的 决策 。 

口 为 了 确定 你 的 预算 为 什么 会 在 本 月 受到 影响 ， 你 必须 从 财务 系统 中 手动 提取 电子 报表 并 

浏览 100 行 。 你 的 系统 本 应 该 能 够 判断 出 哪 行 记录 出 现 了 异常 并 将 其 呈现 给 你 。 

口 在 提交 新 椅子 的 采购 订单 时 , 你 知道 采购 员 Bob 必须 人 为 地 做 出 一 些小 决策 来 处 理 表 单 ， 

例如 是 将 你 的 订单 发 送 给 人 力 资 源 部 获得 书面 批准 ， 还 是 直接 发 送 给 财务 审批 人 。 

我 们 相信 ， 你 很 快 就 会 有 远 胜 于 此 的 系统 投入 使 用 一 机 需 学 习 应 用 程序 将 使 当前 阻碍 流 
程 的 所 有 小 决策 自动 化 。 这 是 一 个 重要 的 主题 ， 因 为 在 未 来 十 年 ， 那 些 能 够 变 得 更 加 自动 化 和 
更 高 效 的 公司 将 取代 那些 无 法 做 到 这 一 点 的 公司 。 机 需 学 习 将 成 为 实现 这 一 转变 的 关键 驱动 力 
i 






































本 书 癌 你 展示 如 何 通 过 在 公司 的 决策 系统 中 实现 机 带 学 习 来 加 速 业 务 流程 。“ 但 是 我 该 怎么 
做 呢 ? ”你 会 说 ,“ 我 有 技术 头脑 ， 而 且 非 稼 善于 使 用 Excel， 但 从 来 没有 做 过 编程 工作 。 ”和 羊 运 
的 是 ,我 们 正 处 于 这 样 一 个 时 刻 : 任何 有 技术 头脑 的 人 都 可 以 学 习 如 何 带 助 公 司 大 幅 提高 生产 率 。 
本 书 将 市 你 踏 上 这 段 旅程 。 在 这 段 旅程 中 ， 你 将 学 到 以 下 内 容 。 
口 如 何 确 定 机 天 学 习 将 在 哪些 领域 为 你 的 公司 创造 巨大 的 价值 ， 例 如 : 

@ 后 台 财 务 〈 应 付 账 天 和 账单 ); 








1.1 为 什么 我 们 的 业务 系统 如 此 糟糕 3 


四 客户 文 持 和 留存 ; 
昌 销售 和 市 场 营销 ; 
四 工资 和 人 力 资 源 。 
口 如 何 构建 能 在 公司 内 实现 的 机 需 学 习 应 用 程序 。 


1.1 为 什么 我 们 的 业务 系统 如 此 糟糕 
“独自 一 个 人 行走 ， 今 天 就 能 出 发 ;和 另 一 个 人 同行 ， 就 得 等 他 准备 好 。 
-部 利 . 戴 维 . 梭 罗 


在 探讨 机 硕 学 习 如 何 帮 助 你 的 公司 提高 生产 率 之 前 , 我 们 先 来 看 看 为 什么 在 你 的 公司 里 部 署 
系统 比 在 你 的 个 人 生活 中 应 用 系统 更 困难 。 以 个 人 理财 为 例 , 你 可 以 使 用 一 个 理财 应 用 程序 来 追 
踪 你 的 支出 。 这 个 应 用 程序 会 告诉 你 ,你 花 了 多 少 钱 、 钱 都 花 到 哪儿 了 ,还 会 建议 你 如 何 增加 储 
著 , 它 甚至 可 以 将 购物 短 目 动 四 镶 五 人 到 最 接近 的 金额 ， 并 将 零钱 存 人 你 的 储 蘑 账 户 。 而 在 工作 
中 ,费用 管理 是 完全 不 同 的 体验 。 要 查看 你 的 团队 遵循 预算 计划 的 情况 ,你 需要 问 财 务 团队 提出 
申请 ， 而 他 们 会 在 下 周 回 复 你 。 如 果 想 深入 了 解 预 算 中 的 特定 项 ， 那 你 就 没 那 么 洱 运 了 |! 

我 们 的 业务 系统 如 此 糟糕 的 原因 有 两 个 。 痛 先 ， 尽管 改变 我 们 自己 的 行为 不 容易 , 但 改变 一 
群 人 的 行为 更 难 。 在 你 的 个 人 生活 中 ， 如 果 想 使 用 一 个 新 的 理财 应 用 程序 ， 直 接 开 始 使 用 即 可 。 
虽然 有 一 点 痛 苗 ,因为 你 需要 学 习 这 个 新 应 用 程序 的 工作 原理 并 设置 你 的 个 人 信息 , 但 这 还 是 可 
以 轻松 完成 的 。 然 而 ， 当 你 的 公司 想 开 始 使 用 费用 管理 系统 时 , 公司 里 的 每 个 人 都 需要 适应 新 的 
工作 方式 ， 这 是 一 个 更 大 的 挑战 。 其 次 ， 管 理 多 个 业务 系统 很 难 。 在 个 人 生活 中 ， 你 可 能 会 使 用 
几 十 个 系统 , 例如 银行 系统 、 电 子 邮 箱 、 日 历 、 地 图 等 , 但 你 的 公司 会 使 用 数 百 甚至 数 千 个 系统 。 
尽管 对 于 IT 部 门 来 说 ， 管 理 所 有 这 些 系统 之 间 的 交互 很 难 ， 但 是 他 们 仍然 救 励 你 使 用 端 到 端 企 
业 软 件 系 统 来 完成 尽 可 能 多 的 任务 。 

SAP 和 Oracle 之 类 的 软件 公司 提供 的 端 到 端 企 业 软 件 系统 是 为 整个 公司 的 运转 而 设计 的 。 
这 些 端 到 端 系 统 处 理 库 存 、 给 员工 发 工资 、 管 理财 务 部 门 以 及 处 理 公 司 其 他 大 部 分 业务 。 端 到 端 
系统 的 优势 在 于 一 切 都 是 集成 的 。 当 你 从 公司 IT 产品 目录 中 购买 基 个 产品 时 ， 目 录 系 统 会 通过 
员工 记录 识别 你 的 身份 。 这 与 HR 用 来 存储 你 的 请 假 申 请 和 给 你 发 工资 的 员工 记录 相同 。 端 到 端 
系统 的 问题 在 于 ， 因 为 它们 能 够 完成 任何 工作 ,所 以 对 于 它们 完成 的 每 一 件 事 来 说 ， 都 有 更 好 的 
系统 可 用 ， 我 们 称 这 些 系统 为 同类 最 佳 系统 。 

同类 最 佳 系 统 可 以 很 好 地 完成 某 一 项 任务 。 例 如 , 你 的 公司 可 能 会 使 用 易 用 性 能 与 你 的 个 人 
理财 应 用 程序 相 媲 美的 费用 管理 系统 。 问 题 在 于 , 该 费用 管理 系统 与 你 公司 使 用 的 其 他 系统 不 完 
全 兼容 。 一 些 功 能 与 其 他 系统 的 现 有 功能 重复 ， 如 网 1-1 所 示 。 举 例 来 说 ， 费 用 管理 系统 内 置 了 
审批 流程 。 该 审批 流程 与 你 在 工作 的 其 他 场景 中 使 用 的 审批 流程 重复 ， 例 如 审批 员工 请 假 申 请 。 
在 实现 同类 最 佳 的 费用 管理 系统 时 , 公司 会 面临 两 个 选择 : 是 采用 费用 管理 审批 流程 并 培训 员工 
采用 两 种 不 同 的 审批 流程 , 还 是 将 席 用 管理 系统 与 山 到 端 系 统 集 成 到 一 起 , 这 样 就 能 在 问 到 端 系 








































































































4 第 1 章 机 器 学 习 如 何 应 用 于 业务 





统 里 审批 费用 ， 然 后 再 将 审批 回 传 给 费用 管理 系统 ? 


重合 的 功能 (例如 审批 ) 


病 到 几 系 统 





图 1-1 同类 最 佳 系统 的 审批 功能 与 端 到 端 系 统 的 审批 功能 重 县 


为 了 了 解 使 用 端 到 端 系统 与 同类 最 佳 系统 的 利弊 ,假设 你 是 一 个 汽车 拉力 赛车 手 ， 该 拉力 赛 
起 于 铺 装 路 面 ， 接 着 穿 过 沙漠 ， 最 后 穿 过 泥沼 。 你 必须 在 两 种 情况 中 做 出 选择 : 一 种 是 在 汽车 上 
安装 全 地 形 轮胎 , 另 一 种 是 在 从 铺 装 路 面 到 沙 地 和 从 沙 地 到 泥沼 的 过 程 中 更 换 轮胎 。 如 果 你 选择 
更 换 轮 胎 ， 就 能 更 快 地 通过 每 个 路 段 , 但 是 随 着 地 形变 化 而 停 下 来 更 换 轮 胎 ， 你 会 浪费 时 间 。 你 
会 如 何 选择 呢 ? 如 果 你 能 快速 更 换 轮 胎 , 并 能 更 快 地 通过 每 个 路 段 , 就 可 以 选择 随 着 地 形变 化 更 
换 轮胎 。 

下 面 假设 你 不 是 车 手 , 你 的 工作 是 为 车 手提 供 支 持 保 障 , 在 比赛 中 为 他 们 提供 轮胎 。 你 就 是 
首席 轮胎 官 (Chief Tire Officer，CTO )! 青 假 设 你 需要 面 对 数 百 种 地 形 而 不 仅 仪 有 三 种 地 形 ， 你 
需要 服务 数 千 名 车 手 而 不 仅仅 是 几 名 车 手 。 作 为 CTO， 你 可 以 轻松 地 做 出 决定 : 除了 特殊 的 地 
形 ， 甚 余 选 择 全 地 形 轮 胎 。 在 特殊 的 地 形 ， 你 将 不 情愿 地 承认 需要 提供 特种 轮胎 。 作 为 车 手 ， 
CTO 的 决定 有 时 会 让 你 不 满意 ， 因 为 最 终 使 用 的 系统 没有 你 在 个 人 生活 中 使 用 的 好 用 。 

我 们 相信 ， 在 未 来 十 年 ， 机 需 学 习 会 解决 这 类 问题 。 回 到 我 们 关于 比赛 的 比喻 ， 机 融 学 习 应 
用 程序 会 在 你 通过 不 同 地 形 时 自动 改变 轮胎 的 特性 。 它 可 以 在 使 用 你 公司 的 端 到 端 解决 方案 的 功 
能 的 同时 ， 实 现 可 与 同类 最 佳 系 统 相 媲美 的 性 能 ， 从 而 达到 两 全 其 美的 效果 。 

再 举 一 个 例子 , 你 的 公司 可 以 不 用 实现 同类 最 佳 的 费用 管理 系统 ,而 是 选择 实现 机 需 学 习 应 
用 程序 来 完成 以 下 工作 。 

口 确定 有 关 费 用 的 信息 ， 例 如 花费 金额 和 供应 商 名 称 。 

口 确定 费用 由 哪个 员工 产生 。 

口 确定 向 哪个 审批 人 提交 消费 报销 。 

回 到 审批 功能 重复 的 那个 案例 , 通过 将 机 句 学 习 与 端 到 端 系 统 结合 使 用 , 你 可 以 自动 化 和 改 
善 公 司 的 流程 ， 而 无 须 实现 同类 最 佳 系统 ， 如 网 1-2 所 示 。 
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通过 结合 机 器 学 习 以 自 动 
决策 ， 在 端 到 端 系 统 中 内 
fr 


遇 到 冰 系 统 


机 各 学 习 
应 用 程序 


图 1-2 机 禹 学 习 增 强 了 病 到 珊 系 统 的 功能 


同类 最 佳 系统 在 公司 中 无 用 武之 地 了 吗 

同类 最 佳 系统 在 企业 中 仍 占 有 一 席 之 地 ， 但 可 能 与 这 些 系 统 在 过 去 大 约 20 年 中 扮演 的 角 
色 不 同 。 可 以 在 下 一 节 中 看 到 ， 计 算 机 时 代 (从 1970 年 至 今 ) 在 提高 公司 生产 率 方 面 一 直 没 
有 取得 成 功 ， 我 们 本 该 目睹 使 用 同类 最 佳 系 统 给 业务 性 能 带 来 的 积极 影响 ， 但 目前 还 没有 。 

那么 同类 最 佳 系 统 将 何去何从 ? 在 我 们 看 来 ， 同 类 最 佳 系统 将 具有 以 下 发 展 趋势 : 

口 更 多 地 集成 到 公司 的 端 到 端 系统 ; 

口 更 加 模块 化 ， 以 便 公司 在 不 采用 其 中 一 些 功 能 的 情况 下 采用 另 一 些 功能 。 

同类 最 住 系 统 的 供应 商 要 么 基于 特定 于 问题 的 机 器 学 习 应 用 程序 的 用 途 玉 制定 其 业务 场 
景 ， 以 使 其 区 别 于 竞争 对 手 的 产品 ， 要 么 基于 其 客户 内 部 构建 的 解决 方案 来 制定 其 业务 场景 。 
相反 ， 随 着 更 多 公司 自己 开发 机 器 学 习 应 用 程序 ， 而 不 是 去 购买 同类 最 佳 解决 方案 ,这 些 供 应 
商 的 利润 率 将 受到 挤 压 。 


1.2 ”为 什么 如 今 目 动 化 很 重要 


我 们 正 处 于 公司 生产 率 大 幅 跃 升 的 风口 浪 尖 。 自 1970 年 以 来 ， 与 计算 机 处 理 能 力 的 变化 相 
比 ， 像 欧美 这 样 的 成 熟 经 济 体 的 公司 生产 率 几乎 没有 变化 ， 并 且 这 种 趋势 几 十 年 来 一 直 很 明显 。 
在 这 段 时 间 里 ， 公 司 生产 率 仅仅 翻 了 一 番 ， 而 计算 机 的 处 理 能 力 却 提高 了 2000 万 借 | 

如 果 计算 机 真 的 有 助 于 提高 生产 率 ， 为 什么 那些 运算 速度 更 快 的 计算 机 没有 带 来 更 高 的 生 
产 率 呢 ? 这 是 现代 经 济 学 的 谜团 之 一 ， 经 济 学 家 称 其 为 索 洛 悖 论 。1987 年 ， 美 国 经 济 学 家 罗 伯 
特 ， 索 治 打趣 道 


“计算 机 无 处 不 在 ， 就 是 不 在 “生产 率 ” 中 。” 
无 法 提高 生产 率 只 是 公司 的 通病 吗 ? 公司 现在 是 否 已 达到 生产 率 的 峰 信 ? 我 们 认为 不 是 。 一 
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些 公司 已 经 找到 了 解决 索 党 迟 论 的 方法 , 并 且 正 在 迅速 提高 它们 的 生产 率 。 我 们 认为 其 他 很 多 公 
司 也 将 加 入 它们 的 行列 ， 希望 你 的 公司 也 如 此 。 

图 1-3 来 自 于 2017 年 英格兰 银行 首席 经 济 学 家 Andy Haldane 关 于 生产 率 的 一 次 演讲 。 它 展示 
了 自 2001 年 以 来 , 前 5% 的 公司 将 生产 率 提 高 了 40% 左 右 , 而 其 余 95% 的 公司 在 生产 率 方面 几乎 
止步 不 前 “。 在 几乎 所 有 经 济 成 熟 的 国家 都 发 现 了 这 种 低 增长 趋势 。 
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图 1-3 前沿 公 司 (前 5% 的 公司 ) 与 所 有 公司 的 生产 率 比 较 





1.2.1 什么 是 生产 率 


生产 率 是 在 国家 层面 上 ， 用 年 度 国内 生产 总 值 (GDP ) 除 以 一 年 中 的 工作 小 时 数 得 出 的 。 在 
英国 和 美国 ， 每 小 时 产生 的 GDP 略 高 于 100 美元 。1970 年 ， 这 个 数值 范围 在 45~50 美元 。 但 是 
在 前 5% 的 公司 ( 前沿 公 司 )， 这 个 数值 超过 了 700 美元 并 且 还 在 增长 。 

前 沿 公司 通 过 最 大 限度 减少 每 产 出 1 美元 所 消耗 的 人 力 才 达到 了 如 此 可 观 的 每 小 时 GDP。 
换 名 话说， 这些 公司 将 一 切 可 以 自动 化 的 东西 都 自动 化 了 。 我 们 预测 ， 随 着 越 来 越 多 的 公司 想 出 
如 何 复制 前 沿 公司 的 做 法 ， 生 产 率 将 急剧 增长 ， 并 且 将 从 目前 水 平 跃 升 到 峰值 水 平 。 

我 们 相信 ,我 们 已 到 了 索 洛 那 论 的 尽头 。 机 融 学 习 将 使 许多 公司 达到 前 沿 公司 的 生产 率 水 平 。 
而 且 ， 我 们 相信 那些 没有 参与 其 中 的 公司 ， 即 没有 显 车 提高 生产 率 的 公司 ， 将 逐渐 凋零 甚至 灭亡 。 

















1.2.2 ”机 顺 学 习 如 何 提高 生产 率 
前 面 我 们 研究 了 公司 努力 变 得 更 加 自动 化 的 原因 ， 并 且 有 证 据 表明 ， 尽 管 在 过 去 50 年 里 公 





Q) Andy Haldane 将 排名 前 5% 的 公司 称 为 前 沿 公司 。 


1.3 ”机 器 如 何 做 出 决策 了 





司 的 生产 率 并 没有 得 到 很 大 提高 , 但 仍 有 一 批 前 沿 公 司 通过 自动 化 一 切 可 能 自动 化 的 环节 提高 了 
生产 率 。 接 下 来 ,我 们 将 了 解 机 需 学 习 如 何 帮 助 你 的 公司 变 成 前 治 公 司 ,， 然 后 再 回 你 展示 机 需 学 
习 如 何 帮 助 公司 实现 转型 。 

就 我 们 的 目的 而 言 ， 自 动 化 是 指使 用 软件 来 执行 重复 性 任务 。 在 商业 世界 中 , 重复 性 任务 无 
处 不 在 。 例 如 ， 一 个 典型 的 零售 业务 包括 向 供应 商 下 单 、 向 客户 发 送 营 销 材 料 、 管 理 库存 商品 、 
在 会 计 系 统 里 创建 条 目 、 向 员工 支付 工资 以 及 其 他 数 百 种 任务 。 

为 什么 将 这 些 流 程 自动 化 如 此 困难 ?从 宏观 上 来 看 , 这 些 流程 看 似 非常 简单 。 发 送 营销 材料 
不 过 是 准备 内 容 然 后 通过 电子 邮件 发 送 给 客户 , 而 下 单 只 需 从 产品 目录 中 选择 产品 , 得 到 批准 后 
将 订单 发 送 给 供应 商 ， 这 有 多 难 呢 ? 

自动 化 难以 实现 的 原因 是 , 尽管 这 些 流 程 看 起 来 是 重复 的 , 但 在 这 个 过 程 中 的 几 个 步骤 中 仍 
需要 做 出 一 些小 的 决策 。 这 就 是 机 需 学 习 的 用 武之 地 。 你 可 以 使 用 机 需 学 习 在 流程 中 的 每 个 节点 
做 出 这 些 决策 ， 就 像 人 们 目前 所 做 的 那样 。 


1.3 ”机 器 如 何 做 出 决策 


出 于 本 书 的 目的 ， 请 侨 机 可 学 习 看 成 基于 数据 集中 的 模式 做 出 决策 的 一 种 方式 。 我 们 称 其 
基于 模式 的 决策 。 这 与 当今 的 大 多 数 软件 开发 相反 ， 大 多 数 软 件 开发 是 基于 规则 的 决策 , 程序 
编写 的 代码 采用 一 系列 规则 来 执行 任务 。 

在 你 的 癌 销 人 员 发 送 一 份 产 品目 录 的 电子 邮件 时 ,和 营销 软件 会 包含 查询 数据 库 的 代码 , 并 且 
只 提取 那些 被 选中 的 客户 ,如 居住 在 某 个 服装 工厂 店 方圆 20 千 米 以 内 的 25 岁 以 下 的 男性 。 营 销 
数据 库 中 的 每 个 人 虱 可 以 被 识别 为 属于 这 个 组 或 不 属于 这 个 组 。 

与 此 形成 对 比 的 是 ， 机 表 学 习 对 数据 库 的 查询 可 能 是 找 出 所 有 具有 与 茶 个 特定 的 23 岁 男性 
相似 的 购买 历史 的 顾客 , 而 该 男性 恰好 住 在 你 的 一 家 工厂 店 附近 。 该 查询 将 返回 与 基于 规则 的 查 
询 相同 的 顾客 ， 但 同时 也 会 返回 具有 相似 购 灭 模式 并 且 愿 意 多 走 两 步 到 你 的 店 里 的 顾客 。 


1.3.1 人 : 是 否 基于 规则 


许多 公司 依 笔 人 而 非 软件 来 完成 日 稼 工作 , 例如 发 送 浓 销 材料 和 回 供 应 商 下 单 。 这 么 做 的 原 
因 有 很 多 , 但 最 普遍 的 原因 是 ， 对 于 同一 个 任务 , 教 人 如 何 执行 比 基 于 任务 所 需 的 规则 对 计算 机 
进行 编程 要 容易 得 多 。 

以 Karen 为 例 ， 她 的 工作 是 审核 采购 订单 ， 将 其 发 送 至 审批 人 ,然后 将 批准 的 采购 订单 邮件 
发 送 给 供应 商 。Karen 的 工作 既 桔 燥 又 棘手 。 每 天 ，Karen 祁 会 做 出 许多 决策 ,来 决定 由 谁 来 审 
批 哪些 订单 。Karen 从 事 这 份 工 作 已 有 好 几 年 , 所 以 她 知道 一 些 简单 的 规则 , 例如 开 产品 必须 经 
过 IT 部门 的 批准 。 她 还 知道 一 些 例外 情况 ， 例 如 ， 她 知 近 当 Jim 从 文具 类 目 里 采购 碳 粉 时 ， 她 
需要 将 订单 发 送 给 开 部 门 进行 批准 ， 但 是 当 Jim 从 开 类 目 中 采购 新 鼠标 时 则 不 需要 。 

Karen 的 角色 没有 日 动 化 的 原因 是 对 所 有 这 些 规则 进行 编程 比较 困难 ,但 更 难 的 是 维护 这 些 
规则 。Karen 不 再 经 第 采用 她 的 “传真 机 ”规则 ， 而 是 越 来 越 多 地 采用 在 过 去 几 年 里 形成 的 “ 平 
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板 计算 机 手写 笔 ” 规则。 她 认为 平板 计算 机 手写 笔 更 像 是 鼠标 而 不 是 笔记 本 计算 机 ， 所 以 她 不 会 
将 手写 笔 订单 发 送 给 IT 部 门 进行 审批 。 如 果 Karen 真 的 不 知道 如 何 对 特定 产品 进行 分 类 ， 她 会 
打 电 话 与 和 江 部 门 进行 讨论 ， 但 对 于 大 多 数 情况 ， 她 会 日 已 做 决定 。 

使 用 我 们 基于 规则 的 决策 与 基于 模式 的 决策 的 概念 ， 可 以 看 到 Karen 融合 了 两 者 。Karen 大 
部 分 时 间 采 用 规则 ,但 偶尔 会 基于 模式 做 出 决策 。 正 是 由 于 Karen 工作 中 基于 模式 的 部 分 ,使 得 
很 难 使 用 基于 规则 的 系统 进行 目 动 化 。 因 此 , 在 过 去 ， 让 Karen 执行 这 些 任 务 要 比 用 规则 对 计算 
机 编程 来 执行 任务 容易 得 多 。 


1.3.2 ”你 能 相信 一 个 基于 模式 的 人 党 案 吗 


许多 公司 有 人 工 流程 , 通常 是 因为 流程 中 会 有 不 少 变化 , 使 得 自动 化 变 得 困难 。 这 就 是 机 桥 
学 习 的 用 武之 地 。 

需要 人 做 出 决策 的 任何 时 刻 , 都 是 使 用 机 需 学 习 来 自动 决策 或 者 提供 有 限 选项 供 人 考虑 的 机 
会 。 与 基于 规则 的 编程 不 同 ,机 器 学 习 使 用 数据 样 例 而 非 规则 来 确定 如 何在 给 定 情 况 下 做 出 啊 应 。 
这 使 其 比 基 于 规则 的 系统 更 加 灵活 ,在 面临 新 情况 时 ,机 带 学 习 不 会 不 知 所 措 ， 而 是 会 以 一 个 较 
低 的 置信 度 做 出 决策 。 

我 们 来 看 一 个 例子 。 一 个 新 产品 进入 Karen 的 目录 ， 该 产品 是 一 球 语 音 控制 设备 ， 类 似 于 
Amazon Echo 或 者 Google Home。 该 设备 看 起 来 有 点 像 开 产 品 ， 这 就 意味 着 采购 订单 需要 IT 部 
门 的 批准 。 但 是 , 由 于 这 也 是 将 信息 输入 计算 机 的 一 种 途径 ,因此 它 看 起 来 有 点 像 手写 笔 或 鼠标 
之 类 的 配件 ， 这 如 意 味 厦 采购 订单 不 需要 开 部 门 的 批准 。 

在 基于 规则 的 系统 中 ， 这 个 产品 是 未 知 的 ， 并 且 当 被 要 求 确 定 将 产品 发 送 给 哪 位 审批 人 时 ， 
系统 可 能 会 中 断 。 在 机 需 学 习 系 统 中 ,新 产品 不 会 使 系统 中 断 。 相 反 ， 系 统 提供 的 答案 的 置信 和 度 
低 于 系统 对 以 往 产 品 提供 的 答案 。 残 像 Karen 可 能 会 出 错 一 样 , 机 禹 学 习 应 用 程序 也 可 能 会 出 错 。 
对 于 公司 的 管理 团队 和 风险 团队 来 说 ,接受 这 种 不 确定 性 可 能 会 市 来 挑战 , 但 这 与 让 Karen 在 办 
公 果 前 对 新 产品 做 出 同样 的 决定 没什么 不 同 。 

事实 上 , 用 于 业务 自动 化 工作 流程 的 机 各 学 习 系 统 可 以 设计 得 比 人 类 目 己 操作 效 末 好 。 最 住 
工作 流程 通常 包含 系统 和 人 人员。 系统 可 以 配置 为 满足 绝 大 多 数 情 况 , 但 也 存在 一 种 机 制 ， 即 当 决 
琳 结 果 的 置信 和 度 较 低 时 , 会 将 流程 转交 给 操作 人 员 进 行 决策 。 理 想 情 况 下 ,该 决策 结 末 会 反馈 给 
机 右 学 习 应 用 程序 ， 这 样 应 用 程序 未 来 决策 的 置信 和 度 会 变 得 更 局。 

对 你 来 说 ， 对 结果 感到 满意 是 件 好 事 。 在 许多 情况 下 ,为 了 在 公司 做 出 基于 模式 的 决策 ， 你 
需要 获得 风险 团队 和 管理 团队 的 批准 。 下 一 区 将 人 研究 基于 模式 的 决策 输出 ,你 会 了 解 一 些 获 得 批 
准 的 潜在 方法 。 


1.3.3 ”机 器 学 习 如 何 能 提升 你 的 业务 系统 


到 目前 为 止 , 我们 一 直 将 可 以 在 公司 中 执行 多 种 功能 的 系统 称 为 痪 到 站 系统 。 通 汕 ， 这 些 系 
统 被 称 为 ERP〈 企业 资源 规划 ) 系统 。 
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ERP 系统 在 20 世纪 八 九 十 年 代 迅 速 崛 起。 许多 大 中 型 公司 使 用 ERP 系统 来 管理 其 大 多 数 业 
务 功 能 ， 例 如 工资 、 采 购 、 库 存 管理 、 资 本 折旧 等 。SAP 和 Oracle 主导 者 ERP 市 场 ， 但 也 有 几 
个 较 小 的 厂商 。 

理想 情况 下 ， 你 的 所 有 业务 流程 都 可 以 内 建 到 你 的 ERP 系统 中 ， 但 现实 并 没有 那么 美好 。 
你 公司 做 的 业务 可 能 与 ERP 的 默认 配置 略 有 不 同 ， 这 就 会 造成 问题 。 你 必须 找 人 来 对 你 的 ERP 
进行 编程 ， 以 便 系 统 能 够 按照 你 的 业务 进行 工作 。 这 既 昂 贯 又 耗 时 ,并 且 可 能 使 你 的 公司 难以 适 
应 新 机 会 。 而 且 ， 如 末 ERP 系统 能 够 解决 所 有 公司 问题 ， 那 么 我 们 应 该 已 经 在 20 世纪 八 九 十 年 
代 采 用 ERP 系统 时 就 看 到 了 生产 率 的 提高 ， 但 是 在 此 期 间 ， 生 产 率 几乎 没有 提高 。 

你 在 实现 机 需 学 习 文 持 开 aren 的 决策 时 ， 内 部 客户 所 涉及 的 管理 流程 几乎 没有 变化 。 他 们 继 
续 以 之 前 的 方式 下 单 。 机 融 学 习 算 法 只 是 目 动 做 出 一 些 决策 , 然后 订单 就 会 正确 且 目 动 地 发 送 给 
审批 人 和 供应 疝 。 我 们 认为 ， 除非 可 以 将 该 流程 与 公司 的 其 他 流程 完全 分 开 ， 否则 最 佳 方式 是 完 
实施 机 融 学 习 目 动 化 解决 方案 ， 然 后 随 看 时 间 的 推移 将 这 些 流程 迁移 到 你 的 ERP 系统 。 


























提示 “自动 化 不 是 提高 生产 率 的 唯一 途径 。 在 自动 化 之 前 ， 你 应 该 问 自己 是 否 需要 这 么 做 。 你 
能 否 在 不 自动 化 的 情况 下 创造 所 需 的 业务 价值 


1.4 机 器 能 帮 Karen 做 决策 吗 


机 妖 学 习 的 概念 很 难 理 解 ， 这 在 某 种 程度 上 是 由 于 机 器 学 习 这 个 术语 涵盖 的 主题 比较 广泛 。 
就 本 书 而 言 ,请 将 机 带 学 习 视 为 一 种 识别 数据 模式 的 工具 ， 当 你 癌 它 提供 新 数据 时 ， 它 会 告诉 你 
新 数据 拟 合 效果 最 好 的 模式 。 

浏览 有 关机 怖 学 习 的 其 他 相关 文献 资源 时 ,你 会 发 现 机 融 学 习 还 洱 盖 了 其 他 许多 内 容 。 但 其 
中 大 多 数 内 容 可 以 分 解 为 一 系列 决策 。 以 目 动 驾驶 汽车 的 机 天 学 习 系 统 为 例 , 表面 上 ,这 上 听 起 来 
与 我 们 正在 研究 的 机 融 学 习 完 全 不 同 , 但 目 动 朗 驶 实际 上 就 是 一 系列 决策 。 一 种 机 带 学 习 算 法 查 
看 场景 并 决定 如 何 对 场景 中 的 每 个 物体 描 框 。 另 一 种 机 需 学 习 算 法 确定 这 些 框 所 代表 的 物体 是 否 
能 绕 过 。 如 果 能 绕 过 ， 第 三 个 算法 将 决定 绕 过 它们 行 蚤 的 最 佳 路 线 。 

为 了 确定 你 是 否 能 利用 机 六 学 习 来 帮助 Karen， 让 我 们 来 看 看 Karen 在 流程 中 做 出 的 决策 。 
接 到 订单 后 ，Karen 需要 决定 是 直接 将 其 发 送 给 申请 者 对 应 的 财务 审批 人 ， 还 是 先 将 其 发 送 给 技 
术 审 批 人 。 如 有 果 订 单 是 针对 计算 机 或 者 笔记 本 计算 机 之 类 的 技术 产品 , 那么 她 需要 将 订单 发 送 给 
技术 审批 人 。 如 有 果 不 是 技术 产品 ， 则 无 须发 送 给 技术 审批 人 。 如 有 果 申 请 者 来 自 IT 部 门 ， 那 么 她 
无 须发 送 订 单 给 技术 审批 人 。 让 我 们 来 评估 一 下 Karen 的 和 例 是 否 适 合 机 硕 学 习 。 

在 Karen 的 案例 中 ， 她 对 每 笔 订 单 提问 :“ 我 应 该 发 送 此 申请 来 获得 技术 部 门 的 审批 吗 ?” 
她 的 决策 结果 要 么 是 “是 ”， 要 人 么 是 “ 否 ”。 在 做 决定 时 ， 她 需要 考虑 的 事情 如 下 所 示 。 

口 产品 是 技术 产品 吗 ? 

口 申请 者 是 来 自 TT 部门 吗 ? 
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在 机 种 学 习 术 二 中 ，Karen 的 决 宁 被 称 为 目标 变量 ， 而 她 在 做 出 决 案 时 考虑 的 事物 类 型 被 称 
为 特征 。 如 来 你 拥有 日 标 变 量 和 特征 ， 就 能 用 机 帮 学 习 来 做 决策 。 





1.4.1 目标 变量 


目标 变量 分 为 两 种 形式 : 

口 分 类 型 

口 连续 型 

分 类 型 变量 包含 诸如 是 或 否 、 东 商 西 北 等 。 在 本 书 机 需 学 习 相 关 的 工作 中 , 一 个 重要 的 区 别 
是 ,分 类 型 变量 仅 包 含 两 个 类 别 还 是 包含 两 个 以 上 的 类 别 。 如 果 只 有 两 个 类 别 ， 则 称 为 二 分 类 目 
标 变量 ; 如 采 具 有 两 个 以 上 的 类 别 , 则 称 为 多 分 类 目标 变量 。 你 会 在 你 的 机 需 学 习 应 用 程序 中 设 
置 不 同 的 参数 ， 具 体 取决 于 变量 是 二 分 类 还 是 多 分 类 ， 这 在 本 书后 面 会 详细 介绍 。 

连续 型 变量 是 数值 。 如 果 你 的 机 需 学 习 应 用 程序 基于 诸如 社区 、 房 间 数 量 、 到 学 校 的 距离 等 
特征 来 预测 房价 ,那么 你 的 目标 变量 ( 房价 的 预测 值 ) 就 是 一 个 连续 型 变量 。 房 屋 的 价格 可 以 从 
数 万 美元 到 数 千 万 美元 不 等 。 





























1.4.2 ”特征 


在 本 书 中 , 特征 或 许 是 需要 理解 的 最 重要 的 机 省 学 习 概 念 之 一 。 我 们 目 己 在 做 决策 时 无 时 无 
刻 不 用 到 特征 。 事实 上 , 你 在 本 书 将 学 习 到 的 有 关 特 征 的 知识 可 以 帮助 你 更 好 地 理解 日 己 制 定 决 
策 的 过 程 。 

我 们 再 回 到 Karen 的 例子 , 她 要 决定 是 否 将 采购 订单 发 送 给 IT 部 门 进 行 批准 。Karen 在 做 出 
决 宁 时 考虑 的 是 它 的 特征 。Karen 在 遇 到 从 未 见 过 的 产品 时 可 以 考虑 的 是 该 产品 的 制造 商 。 如 末 
该 制造 商 只 生产 全 产品 ， 那 么 即使 她 以 前 从 未 见 过 该 产品 ， 她 仍 会 认为 它 很 可 能 是 全 产品 。 

对 于 人 类 来 说 ,其 他 类 型 的 特征 可 能 更 难 考 虑 ,但 对 于 机 占 学 习 应 用 程序 而 言 ， 则 更 容易 纳 
入 其 决 宋 过程 中 。 例 如 ,你 可 能 想 找 出 哪些 客户 更 愿意 接听 你 的 销售 团队 的 营销 电话 。 对 于 回头 
客 来 说 , 可 能 很 重要 的 一 个 特征 是 营销 电话 是 否 从 合 他 们 常规 购 关 时 间 表 。 如 末 客 户 通 第 每 两 个 
月 购买 一 次 产品 , 那么 现在 距离 他 上 次 购买 有 两 个 月 了 吗 ?” 使 用 机 融 学 习 来 帮助 你 做 出 决策 , 可 
以 将 这 些 类 型 的 模式 纳入 决 傈 结果 ( 打 品 销 电 话 还 是 不 打 ) 中 。 然 而 ， 人 类 很 难 识别 这 种 模式 。 

请 注意 Karen 在 做 决策 时 考虑 的 因素 (特征 ) 可 能 分 为 多 个 层次 。 如 果 不 知道 菏 个 产品 是 否 
征 技术 产品 ,她 可 能 会 考 碟 其 他 信息 ， 例 如 制造 商 是 谁 ， 以 及 申请 单 中 还 包括 其 他 哪些 产品 。 机 
人 学 习 的 一 大 优点 是 你 不 需要 知道 所 有 特征 ; 构建 完成 机 带 学 习 系 统 后 , 你 会 知道 哪些 特征 最 重 
要 。 如 末 你 认为 某 个 特征 会 和 决 琳 结果 相关 ， 请 将 该 特征 放 入 你 的 数据 集 。 


1.5 ”机 咒 如 何 学 习 


机 和 带 学 习 的 方法 与 你 学 习 的 方法 相同 , 神 是 通过 训练 , 但 如 何 训练 呢 ? 机 带 学 习 是 在 得 出 正 
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确 答案 时 奖励 某 个 数学 函数 , 以 及 在 得 出 错误 答案 时 惩罚 该 函数 的 过 程 , 但 奖励 或 者 惩罚 某 个 函 1 
数 意味 着 什么 呢 ? 

你 可 以 将 函数 看 成 从 一 个 地 方 到 另 一 个 地 方 的 指令 集 。 如 图 1-4 所 示 ， 为 了 从 A 点 到 达 B 点 ， 
方向 可 能 如 下 所 示 : 

(1) 往 右 走 ; 

(2) 往 上 走 一 点 ; 

(3) 往 下 走 一 点 ; 

(4) 往 下 走 一 大 截 ; 

(5) 往 上 走 ; 

(6) 往 右 走 。 





函数 因 保 持 深 色 圆 
在 底部 受到 奖励 


“eee ee 


图 1-4 机 带 学 习 困 数 可 识别 数据 中 的 模式 


机 融 学 习 应 用 程序 是 一 种 工具 , 可 以 确定 函数 何 时 正确 ( 告诉 函数 执行 更 多 操作 ) 或 错误 ( 告 
诉 函 数 执行 更 少 的 操作 )。 也 数 知道 目 己 做 对 了 ， 因 为 它 在 基于 特征 预测 目标 变量 方面 变 得 更 加 
成 功 了 。 

下 面 我 们 扩展 图 1-4 中 的 数据 集 ， 来 看 一 个 更 大 的 样本 ， 如 图 1-5 所 示 。 可 以 看 到 数据 集 包 
括 两 种 类 型 的 圆圈 : 座 色 圆圈 和 浅 色 圆 轿 。 在 图 1-5 中 ， 我 们 从 数据 中 可 以 看 到 一 个 模式 。 数 据 
集 的 四 周 有 很 多 浅 色 圆 轿 , 中 间 有 很 多 深 色 圆圈。 这 意味 我 们 的 郴 数 给 出 了 如 何 将 闪 色 圆圈 与 浅 
色 圆 轿 分 开 的 指令 ， 它 将 从 岁 的 左 侧 开 始 ， 并 在 其 返回 起 点 之 前 皆 春 诛 色 圆圈 转 一 大 图 。 
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函数 因 保持 深 色 圆圈 在 
右 侧 以 及 中 间 受 到 奖励 





图 1-5 识别 数据 集中 相似 元 条 集合 的 机 带 学 习 消 数 


哨 数 表现 正确 时 , 我 们 就 奖励 它 。 我 们 可 以 将 这 个 过 程 视 为 奖励 深 色 圆 圈 出 现在 其 右边 的 也 
数 ， 惩 刊 深 色 圆 圈 出 现在 其 左边 的 孔 数 。 如 果 你 还 奖励 左 侧 出 现 浅 色 圆 圈 的 函数 ， 惩罚 右 侧 出 现 
浅 色 圆圈 的 函数 ， 就 可 以 更 快 地 训练 它 。 

因此 ,在 这 个 背景 下 训练 机 带 学 习 应 用 程序 时 ,你 要 做 的 就 是 问 系 统 展 示 大 量 的 示例 。 该 系 
统 构 建 了 数学 函数 来 区 分 数据 中 的 某 些 内 容 , 这 些 区 分 的 内 容 就 是 目标 变量 。 也 数 区 分 出 更 多 的 
目标 变量 时 就 会 得 到 奖励 ， 反 之 则 会 受到 惩 神 。 

机 需 学 习 问 题 可 以 分 为 两 种 类 型 : 

口 监督 机 套 学 习 

口 无 监督 机 融和 学 习 

除了 特征 之 外 , 就 本 书 而 言 ， 机 带 学 习 的 另 一 个 重要 概念 是 监督 机 融和 学习 与 无 监督 机 善 学习 
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之 间 的 区 别 。 

顾名思义 ， 无 监督 机 融 学 习 就 是 我 们 将 大 量 数据 交 给 机 融 学 习 应 用 程序 并 告诉 它 去 做 事情 。 
聚 尖 是 无 监督 机 融 学 习 的 一 个 示例 。 例 如 ， 我 们 回 机 带 尝 习 应 用 程序 提供 了 一 些 客 户 数 据 , 它 决 
定 如 何 将 客户 数据 分 组 到 具有 相似 客户 的 类 别 。 相 比 之 下 ,分 类 是 监督 机 带 学 习 的 一 个 示例 。 例 
如 , 你 可 以 利用 销售 团队 历史 致电 客户 的 成 功率 数据 作为 训练 机 省 学 习 应 用 程序 如 何 识别 最 有 可 
能 接听 电话 的 客户 的 一 种 方法 。 























注意 本 书 的 绝 大 多 数 章 节 会 专注 于 监督 机 器 学 习 ， 在 这 种 情况 下 ， 不 是 让 机 器 学 习 应 用 程序 
挑选 模式 ， 而 是 为 机 器 学 习 应 用 程序 提供 一 个 历史 数据 集 ， 该 数据 集 包 含 展 示 正 确 决策 
的 样本 。 





利用 机 带 尝 习 解 决 业务 目 动 化 项 目的 最 大 优势 之 一 是 , 你 通常 可 以 很 容易 地 得 到 优质 的 数据 
集 。 在 Karen 的 案例 中 ， 她 有 数 千 笔 以 前 的 订单 可 供 提 取 ， 对 于 每 笔 订 单 ， 她 都 知道 它 是 否 已 发 
送 给 技术 审批 人 。 在 机 杂 学 习 术 语 中 , 这 种 数据 集 称 为 有 标 俭 的 效 据 集 ， 这 意味 着 每 个 样本 都 包 
含 该 样本 的 目标 变量 。 就 Karen 而 言 ， 她 需要 的 历史 数据 集 是 这 样 的 : 该 数据 集 展 示 了 购买 了 什 
么 产品 ， 是 否 由 开 部 门人 员 购 买 了 产品 ， 以 及 Karen 是 否 将 其 发 送 给 了 技术 审批 人 。 


1.6 ”在 你 的 公司 洛 实 使 用 机 器 学 习 进 行 决 案 


本 章 前 面 介 绍 了 如 何 使 用 机 融 学 习 来 帮助 你 的 公司 做 出 决策 。 但 是 , 公司 需要 做 什么 才能 让 
你 所 学 的 充分 发 挥 作用 呢 ? 理论 上 ， 这 并 不 难 ， 你 的 公司 只 需要 四 个 要 素 。 
口 它 需 要 一 个 能 够 发 现 自动 化 和 使 用 机 需 学 习 的 机 会 的 人 ， 以 及 一 个 能 够 证 明 这 个 机 会 值 
得 为 之 努力 的 人 。 顺 便 说 一 句 ， 这 个 人 就 是 你 。 
口 你 需要 能 够 访问 到 机 器 学 习 应 用 程序 所 需 的 数据 。 你 的 公司 可 能 会 要 求 你 填写 许多 内 部 
表格 ， 以 描述 为 什么 要 访问 这 些 数据 。 
口 你 的 风险 团队 和 管理 团队 需要 习惯 于 采用 基于 模式 的 决策 方法 。 
口 你 的 公司 需要 一 种 将 你 的 工作 变 成 某 种 可 以 使 用 的 系统 的 方法 。 
在 许多 组 织 中 , 这 四 个 要 系 中 的 第 三 个 是 最 难 实 现 的 。 解决 这 个 问题 的 一 种 办 法 是 让 风险 团 
以 参与 其 中 ， 并 且 让 他 们 能 够 为 何 时 需要 Karen 审查 决策 设 定 一 个 阔 值 。 
例如 , 一些 送 到 Karen 办 公 果 上 的 订单 很 明显 需要 发 送 给 技术 审批 人 , 并且 机 需 学 习 应 用 程 
序 必须 上 自分 之 百 确 定 其 应 该 交 由 技术 审批 人 批准 。 而 其 他 订单 则 没有 那么 明确 , 机 融 学 习 应 用 程 
序 可 能 不 会 返回 1 ( 100% 的 置信 和 度 )， 而 是 返回 0.72 ( 较 低 的 置信 和 度 )。 你 可 以 采用 下 面 的 规则 : 
如 果 机 天 学 习 应 用 程序 的 诀 宋 的 置信 度 不 足 75%， 则 将 申请 发 送 给 Karen 决策 。 
如 果 你 的 风险 团队 参与 设 定 置信 和 度 〈 低 于 此 ， 则 必须 由 人 工 审核 订单 )， 这 将 为 他 们 提供 一 
种 建立 明确 准则 的 方法 ， 以 便 在 公司 中 管理 基于 模式 的 决策 。 在 第 2 章 中 ， 你 将 了 解 更 多 关于 
Karen 的 信息 ， 并 帮助 她 开展 工作 。 
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1.7 工具 


在 以 前 (也 就 是 2017 年 )， 构 建 可 扩展 的 机 需 学 习 系 统 非常 具有 挑战 性 。 除 了 识别 特征 和 生 
成 市 标签 的 数据 集 之 外 ， 你 还 需要 具备 广泛 的 技能 ,包括 IT 基础 设施 管理 员 、 数 据 科 学 家 、 后 
并 Web 开发 人 员 的 技能 。 以 下 是 构建 机 融 学 习 系 统 曾 涉及 的 步 又 。( 在 本 书 中 ， 你 将 学 习 如 何在 
不 执行 这 些 步骤 的 情况 下 构建 机 善 学 习 系 统 。) 

(1) 设置 构建 和 运行 机 融 学 习 应 用 程序 的 开发 环境 (IT 基础 设施 管理 员 )。 

(2) 基于 数据 训练 机 带 学 习 应 用 程序 ( 数据 科学 家 )。 

(3) 验证 机 硕 学 习 应 用 程序 (数据 科学 家 )。 

(4) 部 署 机 天 学 习 应 用 程序 (IT 基础 设施 管理 员 )。 

(5) 设置 一 个 端点 ， 用 来 接收 新 数据 并 返回 预测 结 采 《〈 后 端 Web 开发 人 员 )。 

难怪 大 多 数 公 司 还 没有 广泛 使 用 机 需 学 习 ! 幸运 的 是 , 其 中 一 些 步 又 如 今 可 以 用 基于 云 的 服 
务 融 来 完成 。 因 此 , 尽管 你 需要 了 解 如 何 将 所 有 功能 组 合 在 一 起 , 但 无 须 了 解 如 何 设置 开发 环境 、 
构建 服务 需 或 创建 安全 的 端点 。 

在 接 下 来 的 七 草 中 , 你 将 从 头 开 始 构建 一 个 能 解决 背 见 业务 问题 的 机 器 学 习 系 统 。 这 上 听 起 来 
可 能 令 人 望 而 生 其 ,但 其 实 并 没有 那么 难 ， 因 为 你 将 使 用 Amazon 的 一 项 名 为 AWS SageMaker 
的 服务 。 


























1.7.1 AWS 和 SageMaker 是 什么 ， 它 们 如 何 帮 助 你 


AWS 全 称 是 Amazon 云 计 算 服 务 ， 它 使 各 种 体 量 的 公司 都 能 构建 服务 顺 并 与 云 服 务 进行 交 
互 ， 而 无 须 建 立 自己 的 数据 中 心 。AWS 提供 了 数 十 种 服务 ， 从 计算 服务 | 例如 基于 云 的 服务 各 
(EC2 )] 到 消息 传递 与 集成 服务 (例如 SNS 消息 传递 )， 再 到 特定 领域 的 机 还 学 习 服 务 ， 例 如 
Amazon Transcribe (用 于 将 语音 转换 为 文本 ) 以 及 AWS DeepLens ( 用 于 视频 流 中 的 机 楷 学 习 )。 

SageMaker 是 Amazon 用 于 构建 和 部 署 机 融 学 习 应 用 程序 的 环境 。 我 们 来 看 看 它 基 于 前 面 讨 
论 的 $ 个 步 又 提供 的 功能 。SageMaker 是 革命 性 的 ， 因 为 它 

口 提供 云 上 的 开发 环境 ， 因 此 你 无 须 在 你 的 计算 机 上 设置 开发 环境 ; 

口 在 你 的 数据 上 使 用 预 配 置 的 机 需 学 习 应 用 程序 ; 

口 使 用 内 置 工 具 验 证 机 器 学 习 应 用 程序 的 结 

口 部 署 你 的 机 带 尝 习 应 用 程序 ; 

口 日 动 设置 一 个 端点 来 接收 新 数据 并 返回 预测 结 

SageMaker 可 以 为 你 处 理 好 所 有 基础 设施 方面 的 工作 ， 除 此 之 外 ， 它 的 一 个 最 佳 特 性 就 是 ， 
它 使 用 的 开发 环境 是 一 个 名 为 Jupyter 笔记 本 的 工具 ， 该 工具 使 用 Python 作为 其 编程 语言 之 一 。 
但 是 , 你 在 本 书 中 使 用 SageMaker 学 习 到 的 知识 将 使 你 在 任意 机 需 学 习 环 境 中 受益 。Jupyter 笔记 
本 是 数据 科学 家 与 机 还 学 习 应 用 程序 进行 交互 的 事实 标准 ， 并 且 Python 是 数据 科学 家 使 用 的 发 
展 最 快 的 编程 语言 。 
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Amazon 决定 使 用 Jupyter 笔记 本 和 Python 来 与 机 天 学 习 应 用 程序 进行 交互 ， 这 既 有 利于 有 
经 验 的 从 业者 ， 又 有 利于 刚 接触 数据 科学 和 机 带 学 习 的 人 。 这 对 有 经 验 的 机 天 学 习 从 业者 来 说 是 
好 事 ， 因 为 它 能 让 他 们 在 SageMaker 中 立即 高 效 起 来 ; 对 新 从 业者 来 说 也 是 好 事 ， 因 为 使 用 
SageMaker 学 习 到 的 技能 在 机 融 学 习 和 数据 科学 领域 处 处 适用 。 


1.7.2 ”Jupyter 笔 记 本 是 什么 


Jupyter 笔记 本 是 数据 科学 中 最 受 欢 迎 的 工具 之 一 。 它 将 文本 .代码 和 图 表 组 合 在 一 个 文档 中 ， 
使 用 户 能 够 持续 地 分 析 数 据 ， 从 加 载 和 准备 数据 到 分 析 和 展示 结 

Jupyter 项 目 于 2014 年 启动 。2017 年 ，Jupyter 项 目 指 导 委 员 会 成 员 “ 因 其 开发 的 软件 系统 具 
有 持久 影响 〈 体 现在 对 概念 的 贡献 、 获 得 的 商业 认可 上 或 者 两 者 兼 而 有 之 ) 被 授予 了 享有 右 誉 
的 ACM 软件 系统 奖 。 该 奖项 意义 重大 ， 之 前 的 奖项 都 是 授予 像 互 联网 之 类 的 产品 。 

我 们 认为 ，Jupyter 笔记 本 会 变 得 几乎 与 Excel 一 样 ， 普 遍 用 于 业务 分 析 。 实 际 上 ， 我们 选择 
SageMaker 作为 本 书 首选 工具 的 主要 原因 是 ， 你 在 学 习 SageMaker 的 同时 也 在 学 习 Jupyter。 


1.8 配置 SageMaker 为 解决 第 2~7 章 中 的 场景 做 准备 


你 在 每 草 中 遵循 的 工作 流程 如 下 所 示 。 

(1) 下 载 准备 好 的 Jupyter 笔记 本 和 数据 集 。 每 草 都 有 一 个 Jupyter 笔记 本 以 及 一 个 或 者 多 个 
数据 集 。 

(2) 将 数据 集 上 传 到 S3( 你 的 AWS 文件 存储 桶 )。 

(3) 将 Jupyter 笔记 本 上 传 到 SageMaker。 






























































习 笔 记 本 中 的 每 个 代码 单元 格 ， 并 说 明 其 原理 。 

如 果 你 已 经 有 了 AWS 账户 ， 现 在 就 可 以 开始 使 用 了 。 根 据 每 草 内 容 来 配置 SageMaker 应 该 
只 需要 几 分 钟 。 附 录 B 和 附录 C 展示 了 如 何 为 第 2 草 进 行 设 置 。 

如 果 你 还 没有 AWS 账户 ， 请 从 附录 A 开始 操作 ， 下 到 附录 C。 这 些 附录 将 逐步 指导 你 注册 
AWS， 配 置 并 上 传 你 的 数据 到 S3 存储 桶 中 ， 以 及 在 SageMaker 中 创建 笔记 本 。 各 附录 的 主题 如 
下 所 示 。 

口 附录 A: 如 何 注册 AWS。 

口 附录 B: 设置 S3 来 存储 文件 。 

口 附录 C: 如 何 设置 并 运行 SageMaker。 

完成 了 这 些 附 录 中 的 工作 (一 直到 附录 C 的 结尾 ) 后 ,你 的 数据 集 将 存储 在 S3 中 ，Jupyter 
笔记 本 配置 完成 并 在 SageMaker 上 运行 。 现 在 ， 你 已 经 为 第 2 草 和 后 面 草 节 中 的 场景 做 好 了 
准备 。 
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1.9 ”是 时 候 行 动 了 


本 章 前 面 已 经 提 到 ， 一些 前 治 公 司 正在 迅速 提高 其 生产 率 。 现 在 ,这些 公 司 还 不 多 见 ， 和 你 
的 公司 之 间 不 存在 竞争 关系 。 但 不 可 避免 的 是 , 其 他 公司 会 学 习 使 用 诸如 机 条 学 习 之 类 的 技术 来 
实现 业务 目 动 化 ,从 而 大 大 提高 生产 率 。 最 后 ， 你 的 公司 不 可 避免 地 会 与 它们 葛 争 ,我们 认为 这 
是 一 种 你 死 我 活 的 情况 。 

本 书 的 下 一 部 分 由 六 章 组 成 , 这 几 章 将 融 你 完成 以 下 六 个 场景 , 使 你 有 能 力 应 对 目 己 公司 可 
能 遇 到 的 许多 场景 。 

D 你 是 否 应 该 将 采购 订单 发 送 给 技术 审批 人 ? 

D 你 是 否 应 该 致电 客户 以 防 客户 流失 ? 

D 客户 文 持 请 求 应 该 交 由 高 级 文 持 人 员 处 理 ? 

D 你 是 否 应 该 审核 供应 商 发 送 给 你 的 发 票 ? 

口 根据 历史 趋势 ， 你 公司 下 个 月 的 耗 电量 是 多 少 ? 

口 你 是 否 应 该 在 能 耗 预 测 中 添加 计划 假期 和 天 气 预报 等 额外 数据 ， 以 优化 公司 的 月 度 用 电 

量 预 测 ? 

在 完成 这 儿童 的 学 习 后 ， 你 应 该 有 能 力 应 对 工作 和 公司 中 将 面临 的 许多 机 带 竺 习 决 寅 场景 。 
本 书 将 融 你 踏 上 一 段 旅程 , 让 你 从 有 技术 头脑 的 非 开 发 人 员 成 为 可 以 在 公司 设置 机 右 学 习 应 用 程 
序 的 人 。 


















































1.10 小结 





口 生产 率 落 后 的 公司 将 被 生产 率领 完 的 公司 甩 在 映 后 。 

口 机 需 学 习 是 提高 公司 生产 率 的 关键 ， 因 为 它 可 以 自动 执行 那些 ( 如 果 人 来 执行 就 会 ) 降 
低 公 司 生产 率 的 小 决策 。 

口 机 各 学 习 只 是 生成 最 适合 历史 决策 的 数学 函数 的 一 种 方式 , 并 且 可 以 用 来 指导 当前 的 决策 。 

口 Amazon SageMaker 是 一 项 服务 ， 可 以 让 你 设置 能 在 业务 中 使 用 的 机 融 学 习 应 用 程序 。 

口 Jupyter 笔记 本 是 用 于 数据 科学 和 机 带 学 习 的 最 有 党 欢迎 的 工具 之 一 。 




















ED 
公司 机 器 学 习 的 六 个 场景 
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每 一 草 都 介绍 了 如 何 使 用 机 带 学 习 来 提高 单个 运 营 场景 的 生产 率 。 这 些 场景 如 下 





口 审批 采购 订单 ; 

口 评估 客户 流失 的 风险 ; 

口 确定 应 立即 上 报 的 文 持 请 求 ; 

口 审核 供应 商 发 票 ; 

口 使 用 时 间 序 列 数 据 预 测 运营 趋势 ， 例 如 功 耗 ; 

口 将 其 他 特征 整合 到 时 间 序 列 预测 中 。 

在 每 一 章 中 , 你 都 会 下 载 Jupyter 笔记 本 和 数据 集 , 并 将 其 上 传 到 你 的 AWS SageMaker 账户 。 
接 痢 你 就 可 以 运行 笔记 本 来 构建 和 测试 模型 ,每 一 半 都 将 详细 介绍 笔记 本 的 使 用 以 便 你 了 解 其 工 
作 原 理 。 这 样 你 就 能 用 笔记 本 和 你 公司 的 数据 集 来 完成 相同 的 任务 。 














你 是 否 应 该 将 采购 订单 改进 
给 技术 审批 人 





本 章 要 点 

口 找 出 机 融 学 习 的 用 武之 地 
口 确定 需要 的 数据 以 及 数据 量 
口 构建 机 需 学 习 系 统 

口 利用 机 需 学 习 进 行 决策 











在 本 章 中 , 你 会 从 头 到 尾 地 经 历 一 个 机 带 学 习 场 景 ,该 场景 会 决定 是 否 将 订单 发 送 给 技术 审 
批 人 。 你 无 须 编写 任何 规则 ! 你 只 需要 给 机 融 学 习 系统 提供 一 个 数据 集 ， 该 数据 集 包 售 1000 个 
历史 订单 以 及 对 应 的 标签 ， 标 签 用 于 指明 该 订单 是 否 被 发 送 给 技术 审批 人 。 机 厅 学 习 系 统 从 这 
1000 个 样本 中 找 出 醒 式 ， 在 收 到 新 订单 时 ， 就 能 正确 决定 是 否 将 该 订单 发 送 给 技术 审批 人 。 

在 第 1 革 中 ,你 了 解 了 Karen， 她 在 采购 部 门 工 作 ， 她 的 工作 是 接收 员工 购买 产品 或 者 服务 
的 申请 。 对 于 每 个 申请 ，Karen 决定 需要 由 哪个 审批 人 来 审核 与 批准 订单 。 接 着 , 在 获得 批准 后 ， 
她 会 将 申请 发 送 给 供应 两 。Karen 可 能 不 会 这 样 看 日 己 ,， 但 她 是 决策 者 。 当 购 关 产品 和 服务 的 申 
请 到 来 时 ，Karen 决定 由 谁 来 审批 每 个 申请 。 对 于 某 些 产品 ， 例 如 计算 机 ，Karen 需要 将 申请 发 
送 给 技术 顾问 ， 由 技术 顾问 决定 是 否 符合 规定 。Karen 是 否 需 要 将 此 订单 发 送 给 技术 审批 人 ? 你 
将 在 本 章 找 出 答案 。 

在 本 章 最 后 ， 你 就 可 以 助 Karen 一 臂 之 力 了 。 你 可 以 提出 一 个 解决 方案 ， 该 方案 在 申请 到 达 
Karen 之 前 对 其 进行 查看 ， 然 后 建议 她 是 否 应 将 申请 发 送 给 技术 审批 人 。 通 过 研究 这 些 例 子 ， 你 
将 熟悉 如 何 使 用 机 右 学 习 进行 决策 。 


2.1 决策 


图 2-1 展示 了 Karen 的 工作 流程 ， 从 申请 者 下 订单 到 供应 商 接 收 订 单 。 工 作 流程 中 的 每 个 人 
像 图 标 表示 采取 某 项 行动 的 个 体 。 如 果 有 多 个 入 头 从 他 们 指向 别人 ， 他 们 束 需 要 做 出 决策 。 






































2.2 数据 19 








申请 者 发 送 订 单 | 全 
给 Karen We 
申请 者 
Karen 决 定 是 否 需 要 
发 送 给 技术 审批 人 1 妃 
有 1 Karen 本 
技术 审批 人 决定 批 。 “ @ 人 : 财务 审批 人 决定 
准 还 是 拒绝 申请 技术 审批 人 财务 审批 人 1 2 
A 
人 





图 2-1 在 Karen 所 在 的 公司 里 ,购买 拉 术 设 备 的 审批 工作 流程 


在 Karen 的 流程 中 ， 出 现 了 3 个 决策 (分别 编号 为 1、2 和 3 )。 

(1) 第 一 个 决策 是 将 在 本 章 研 究 的 决策 : Karen 是 否 应 该 将 此 订单 发 送 给 技术 审批 人 ? 

(2) 第 二 个 决策 是 Karen 将 订单 发 送 给 技术 审批 人 后 ， 由 技术 审批 人 做 出 的 : 技术 审批 人 应 
该 批准 该 订单 并 将 其 发 送 给 财务 审批 人 ， 还 是 应 该 拒绝 该 订单 并 发 回 给 申请 者 ? 

(3) 第 三 个 决策 由 财务 审批 人 做 出 : 他 们 应 该 批准 订单 并 将 其 发 送 给 供应 商 ， 还 是 应 该 拒绝 
该 订单 并 发 回 给 申请 者 ? 

每 个 决策 都 适合 用 机 融 学 习 的 方式 做 出 ,事实 上 ， 的 确 如 此 。 我 们 来 详细 地 人 研究 一 下 第 一 个 
决策 ( Karen 的 决策 ), 以 理解 它 为 什么 适合 机 需 学 习 。 


2.2 数据 


在 与 Karen 的 讨论 中 ,你 了 解 到 她 通常 采用 的 方法 是 ， 如 果 产 品 看 起 来 像 IT 产品 ， 她 会 将 
其 发 送 给 技术 审批 人 。 但 她 的 规则 有 个 例外 : 如 果 是 可 以 即 插 即 用 的 产品 ， 如 豚 标 或 者 键盘 ,她 
不 会 将 其 发 送 给 技术 审批 人 进行 审批 。 如 果 申 请 来 日 全部 门 ， 那么 也 不 需要 技术 审批 。 

表 2-1 展示 了 在 这 种 场景 下 将 使 用 的 数据 集 。 这 份 数据 集 包 含 了 Karen 过 去 处 理 的 1000 个 
订单 。 


























否 应 该 将 采购 订单 发 送 给 技术 审批 人 





技术 审批 所 需 的 数据 集 包 含 了 Karen 以 前 收 到 的 订单 信息 





tech approval required requester id role product quantity price total 

0 E2300 tech Desk 1 664 664 

0 E2300 tech Keyboard 9 649 5841 

0 E2374 non-tech Keyboard 1 821 821 

1 E2374 non-tech Desktop 24 655 15720 
Computer 

0 E2327 non-tech Desk 758 758 

0 E23954 non-tech Desk 1 576 576 

1 E2348 non-tech Desktop 忆 汪 1006 21 26 
Computer 

0 E2304 tech Chair 3 J55 465 

0 E2363 non-tech Keyboard | 1028 1028 

0 E2343 non-tech Desk 3 487 1461 








在 为 监督 机 带 学 习 准 备 有 标签 的 数据 集 时 , 把 目标 变量 放 在 第 一 列 是 一 种 很 好 的 做 法 。 在 这 
种 场景 下 ,你 的 目标 变量 是 ，Karen 是 否 应 该 将 订单 发 送 给 技术 审批 人 ? 在 你 的 数据 集 里 ， 如果 
Karen 将 订单 发 送 给 技术 审批 人 进行 审批 ， 你 就 将 tech_approval_regquired 列 标注 为 1。 反 
之 ， 则 将 该 列 标注 为 0。 剩 下 的 列 是 特征 项 。 你 认为 这 些 对 于 决定 是 否 将 订单 发 送 给 审批 人 很 有 
用 。 和 日 标 变量 类 似 ， 特 征 项 也 分 为 两 种 类 型 : 分 类 型 和 连续 型 。 

表 2-1 中 的 分 类 型 寺 征 位 于 regquester_ id、 role 和 本 @1G DG 列 。 一 个 分 类 型 特征 可 以 被 
分 为 多 个 不 同 的 组 ， 它 们 通 沼 是 文本 而 不 是 数值 ， 如 以 下 几 列 所 示 : 




















DD requester id 申请 者 的 ID ; 
DD role 如 果 申 请 者 来 自 IT 部门 ， 则 该 列 标注 为 tech; 
DD product 关 品 类 型 。 





连续 型 特征 是 表 2-1 的 最 后 3 列 。 连续 型 特征 通常 是 数值 , 该 数据 集 的 连续 型 特征 是 suantity、 
price 和 total 列 。 

该 数据 集 挑 选 的 字段 可 以 使 你 再 现 Karen 的 决策 过 程 。 你 还 可 以 选择 许多 其 他 字段 , 市 面 上 
有 一 些 非常 复杂 的 工具 可 以 帮 你 挑选 这 些 特性 。 但是, 就 本 场景 而 言 ， 你 将 凭借 对 要 解决 问题 的 

觉 来 选择 需要 的 特性 。 如 你 所 见 ， 这 种 方法 可 以 快速 见效 。 现在， 你 已 经 准备 好 进行 机 器 学 习 

相关 的 工作 了 。 

口 你 的 最 终 目 标 是 能 够 回 机 需 学 习 模 型 提交 订单 ， 并 获取 返回 的 结果 ， 结 果 中 建议 了 是 否 

需要 将 订单 发 送 给 技术 审批 人 。 
口 你 已 经 确定 了 为 做 出 决策 所 依据 的 特征 (产品 类 型 以 及 申请 者 是 否 来 自 开 部 门 ) 
口 你 已 经 创建 了 市 标签 的 历史 数据 集 ， 如 表 2-1 所 示 。 


2.3 ”开始 你 的 训练 过 程 


有 了 市 标签 的 数据 集 之 后 ， 你 就 可 以 训练 机 带 学 习 模 型 进行 决策 了 , 但 什么 是 模型 ， 如 何 训 
练 它 呢 ? 
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在 接 下 来 的 几 章 里 ， 你 会 进一步 了 解 机 需 学 习 的 工作 原理 。 现 在 ， 你 需要 知道 的 是 机 器 学 习 
模型 是 一 个 数学 函数 ， 它 会 因为 做 出 正确 预测 而 受到 奖励 ， 因 为 做 出 错误 预测 而 受到 惩 昼 。 为 了 
能 够 做 出 更 多 正确 的 预测 , 该 函数 将 每 个 特征 的 某 些 值 与 预测 结果 正确 与 否 相 关联 。 随 着 它 处 理 
的 样本 越 来 越 多 , 它 的 预测 能 力 会 越 来 越 强 。 当 它 处 理 完 所 有 样本 后 ,你 就 可 以 说 该 模型 训练 完 
成 了 。 

机 需 学 习 模 型 的 基础 是 数学 贞 数 , 该 吨 数 被 称 为 机 器 学 习 算法 。 每 个 机 融和 学习 算法 都 有 许 乡 
参数 ,你 可 以 通过 设置 它们 来 获得 性 能 更 好 的 模型 。 在 本 半 中 ,你 用 到 的 所 有 算法 都 使 用 默认 参 
数 。 在 接 下 来 的 草 节 中 ， 我 们 会 讨论 如 何 对 算法 进行 调 优 以 获得 更 好 的 结 

对 于 机 融 学 习 的 初学 者 来 说 , 最 令 人 困惑 的 一 个 方面 是 确定 使 用 哪 种 机 器 学 习 算 法 。 在 本 书 
的 监督 机 融 学 习 实 践 中 ， 我 们 仅 关 注 一 种 算法 : XGBoost。XGBoost 是 一 个 不 错 的 选择 ， 原 因 如 
下 所 示 。 

口 XGBoost 适 用 面 广 ， 无 须 重 大 调整 就 能 适用 于 很 多 问题 。 

口 不 需要 大 量 数 据 就 可 以 获得 民 好 效果 。 

口 结果 具有 很 好 的 可 解释 性 。 

口 对 于 很 多 参加 小 数据 集 机 融 学 习 竞 赛 的 参与 者 来 说 , 这 是 一 种 高 性 能 算法 , 也 是 首选 算法 。 

在 下 一 草 中 ， 你 会 了 解 XGBoost 的 工作 原理 ， 但 现在 ， 我 们 只 讨论 如 何 使 用 它 。 















































注意 如 果 你 尚未 安装 和 配置 本 章 和 本 书 所 需 的 所 有 工具 ， 请 查阅 附录 A、 附 录 B 和 附录 C， 
按照 附录 进行 操作 。 完 成 附录 的 操作 (一 直到 附录 C 的 末尾 ) 后 ， 你 的 数据 集 就 会 存储 
在 S3( AWS 的 文件 存储 服务 ) 中 ， 也 在 SageMaker 中 设置 并 运行 了 Jupyter 笔记 本 。 


2.4 ”运行 Jupyter 笔记 本 并 进行 预测 


我 们 来 逐步 研究 Jupyter 笔记 本 并 预测 是 否 将 订单 发 送 给 技术 审批 人 。 本 章 将 分 六 个 部 分 来 
全 究 Jupyter 笔记 本 : 

口 加 载 并 检查 数据 ; 

口 将 数据 转换 为 正确 的 格式 ; 

口 创建 训练 集 、 验 证 集 和 测试 集 ; 

口 训练 机 硕 学 习 模型 ; 

口 部 敬 机 可 学 习 模 型 ; 

口 测试 机 硕 学 习 模型 并 用 模型 进行 决策 。 

要 继续 进行 ， 你 还 应 该 完成 两 件 事情 。 

口 将 数据 集 orders_with predicteq_value.csv 加 载 到 S3 中 。 

口 将 Jupyter 笔记 本 tech approval required.ipynb 上 传 到 SageMaker。 
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附录 B 和 附录 C 话 细 介 绍 了 如 何 处 理 本 章 使 用 的 数据 集 。 步 又 如 下 所 示 : 

口 下 载 数 据 集 ; 

口 将 数据 集 上 传 到 为 本 书 数 据 集 设置 的 S3 存储 桶 中 ; 

口 下 载 Jupyter 笔记 本 ; 

口 将 Jupyter 笔记 本 上 传 到 你 的 SageMaker 笔记 本 实例 中 。 

别 被 Jupyter 笔记 本 中 的 代码 吓 到 了 。 在 阅 谈 本 书 的 过 程 中 ， 你 会 逐步 了 解 它 的 各 个 方面 。 
在 本 章 中 ,你 只 会 运行 代码 而 不 会 修改 它 。 实 际 上 ， 在 本 半 中 ,除了 前 两 行 代码 外 ， 你 无 须 修改 
任何 代码 ， 只 需 在 前 两 行 告诉 代码 要 使 用 哪个 S3 存储 桶 以 及 该 存储 桶 中 的 哪个 文件 夹 包含 了 你 
的 数据 集 。 

首先 ， 在 浏览 吕 中 登录 AWS 控制 台 ， 打 开 SageMaker 服务 。 然 后 单 击 SageMaker 左 侧 菜 单 
中 的 Notebook instances， 如 图 2-2 所 示 ， 这 将 跳 转 到 一 个 展示 你 的 笔记 本 实例 的 界面 。 














Amazon SageMaker xX 


Dashboard 


Search 


v Ground Truth 
Labeling jobs 
Labeling datasets 


全 又- 入 
ES 选择 Notebook instances 


v Notebook 
Notebook instances 


Lifecycle configurations 








Git repositories 
图 2-2 从 Amazon SageMaker 表单 中 选择 笔记 本 实例 


如 果 按 照 附录 C 上 传 的 笔记 本 没有 运行 ， 你 会 看 到 如 图 2-3 所 示 的 界面 。 单 击 Start 链接 局 
动笔 记 本 实例 。 


Amazon SageMaker Notebook instances 


Q Search notebook instances 1 兮 选择 Start 
Name v Instance Creation time 时 Status 时 Actions 
mlforbusiness-ch02 ml.t2.large May 21, 2018 11:29 UTC © Stopped Start 


图 2-3 集 止 状态 的 笔记 本 实例 


启动 你 的 笔记 本 实例 后 ， 或 是 你 的 笔记 本 实例 已 经 启动 了 ， 你 会 看 到 如 图 2-4 所 示 的 界面 ， 
单 击 Open 链接 。 
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Amazon SageMaker Notebook instances 


Q Search notebook instances 


选择 Open Jupyter 


Name 时 Instance Creation time v Status v Actions 


mlforbusiness-ch02 ml.t2.large May 21, 2018 11:29 UTC © InService Open Jupyter | Open JupyterLab 2 


图 2-4 ”从 笔记 本 实例 中 打开 Jupyter 


单 击 Open 链接 后 , 浏览 器 会 跳出 一 个 新 标签 ,你 会 看 到 在 附录 C 中 创建 的 ch02 文件 来， 如 
图 2-5 所 示 。 














二 Jupyter 


Files Running Clusters SageMaker Examples Conda 
elect items to perform actions on them. 

D0 > mm/ 

口 口 ch02 4 一 一 一 选择 打开 ch02 文 件 夹 





图 2-5 选择 ch02 文件 夹 


最 后 ， 单 击 ch02 之 后 ， 你 会 看 到 按照 附录 C 上 传 的 笔记 本 : tech-approval-required.ipynb。 
单 击 该 笔记 本 以 在 一 个 新 浏览 带 标 签 中 打开 它 ， 如 图 2-6 所 示 。 


二 Jupyter 


Files Running Clusters SageMaker Examples Conda 
Select items to perform actions on them. 


口 o ~ MM/ ch02 
E 


[] 局 tech-approval-required.ipynb 全 一 一 一 选择 该 链接 





图 2-6 打开 tech-approval-required 笔记 本 





图 2-7 展示 了 一 个 Jupyter 笔记 本 。Jupyter 笔记 本 是 极 佳 的 编码 环境 ， 它 将 文本 和 代码 按 段 
落 组织 在 一 起 。 文 本 单元 格 的 示例 如 Part 1: Load and examine the data 所 示 ， 代 码 单元 格 的 
示例 如 下 所 示 : 

data_bucket = 'mlforbusiness' 


subfolder = 'ch02' 


dataset = 'orders with predicted value.cSV'， 


于 Jupyter tech-approval-required (autosaves) 


File Edit View Insert Cell Kernel Widgets Help Not Trusted 思 | conda p' 


四 十 2 由 了 个 yy HRun 国 CD Code 


Predicting whether an order should be sent to a 
technical approver 

代码 单元 格 
Part 1: Load and examine the data 


data bucket = 'mlforbusiness' 
subfolder = 'ch02" 
dataset = "orders with predicted value.csyv' 


import pandas as pd 

import boto3 

import sagemaker 

import s3fs 

from sklearn.model selection import train test split 





图 2-7 Jupyter 笔记 本 的 内 容 


要 运行 Jupyter 笔 记 本 中 的 代码 ， 需 在 光标 位 于 代码 单元 格 内 时 按 Ctrl+Enter 组 合 键 。 


2.4.1 第 一 部 分 : 加 载 并 检查 数据 


代码 清单 2-1 到 代码 清单 2-4 中 的 代码 的 作用 是 加 载 数据 以 供 你 查看 。 在 整个 笔记 本 中 ， 你 
只 需要 修改 data_bucket 和 subfolgder 的 值 。 你 应 该 使 用 按照 附录 B 中 的 说 明 设 置 的 存储 桶 
和 子 文 件 夹 名 称 。 











注意 浏览 代码 只 是 为 了 让 你 熟悉 代码 ， 在 以 后 的 章节 再 次 看 到 时 ， 你 就 知道 代码 如 何 与 
SageMaker 的 工作 流程 相 结 合 了 。 





代码 清单 2-1 展示 了 如 何 识 别 存储 数据 的 存储 桶 与 子 文 件 夹 。 
代码 清单 2-1 设置 S3 存储 桶 与 子 文件 夹 





存储 数据 的 S3 存储 数据 的 S3 
data bucket = 'mlforbusiness' 存储 桶 存储 桶 的 了 文 
subfolder = 'ch02' 件 来 
dataset = 'orders_ with predicted value.csy'! 用 来 训练 和 测试 模 
型 的 数据 集 





你 一 定 记 得 ，Jupyter 笔记 本 是 编写 和 运行 代码 的 地 方 。 你 可 以 通过 两 种 方式 在 Jupyter 笔记 
本 中 运行 代码 。 你 可 以 运行 一 个 单元 格 的 代码 ， 也 可 以 运行 多 个 单元 格 的 代码 。 
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要 运行 一 个 单元 格 的 代码 ， 请 单 击 该 单元 格 以 将 其 选中 ， 然 后 按 Ctrl+Enter 组 合 键 。 然 后 
你 会 看 到 一 个 星 号 (* ) 出 现在 该 单元 格 的 左 侧 。 这 意味 着 该 单元 格 中 的 代码 正在 运行 。 当 星 号 
变 为 数字 时 ， 代 码 已 运行 完毕 。 该 数字 表示 目 打 开 笔 记 本 以 来 已 运行 的 单元 格 数量 。 

如 果 需 要 , 在 更 新 完 数 据 桶 与 子 文件 的 名 称 后 , 如 代码 清单 2-1 所 示 , 你 就 可 以 运行 笔记 本 。 
这 将 加 载 数据 ,构建 并 训练 机 需 学 习 模 型 ,设置 端点 ,最 后 基于 测试 数据 生成 预测 结果 。SageMaker 
需要 大 约 10 分 钟 的 时 间 来 完成 基于 本 书 中 会 用 到 的 数据 集 的 这 些 操作 。 如 果 从 你 的 公司 加 载 大 
型 数据 集 ， 则 可 能 需要 更 长 时 间 。 

要 运行 整个 笔记 本 ， 请 在 Jupyter 笔记 本 顶部 的 工具 栏 中 单 击 Cell， 然 后 单 击 Run All， 如 图 
2-8 所 示 。 





























和 Jupyter tech-approval-required lauosaved) 


File Edit View Insert Cell Kernel Widgets Help Not Trusted conda p 


十 和 幅 榴 个 vv Run Cells 
Run Cells and Select Below 
Run Cells and Insert Below 选择 Run All 
Run All 
Predictin( Runa apove er should be sent toa 
technical RunaBelow 


Part 1: Loa( “el iype ”jata 


data bucket = Current Outputs » 


subfolder = 'c AlOutput > 


dataset = 'ordecr SD WEIL BE VaidUc. CSV' 





图 2-8 运行 Jupyter 笔记 本 
1. 设置 笔记 本 
接 下 来 设置 笔记 本 所 需 的 Python 库 ， 如 代码 清单 2-2 所 示 。 有 要 运行 笔记 本 ， 无 须 修 改 (代码 
清单 中 的 ) 任何 值 。 
口 pandas 一 一 数据 科学 项 目 中 篆 用 的 Python 库 。 在 本 书 中 ,我们 不 会 深入 了 解 pandas。 你 
会 以 pq 加 载 pandas 库 。 在 本 曹 后 面 可 以 看 到 ， 这 意味 痢 我 们 将 在 pandas 库 的 任意 模块 
用 pa 作为 开头 。 
D boto3 和 sagemaker 一 -Amazon 创建 的 用 于 帮助 Python 用 户 与 AWS 资 源 交 互 的 库 。boto3 
用 于 与 S3 交互 ， 而 sagemaker 无 疑 是 与 SageMaker 交互 。 你 还 会 使 用 一 个 名 为 s3fs 的 
模块 ， 该 模块 使 boto3 与 $S3 一 起 使 用 更 加 方便 。 
D sklearn 尔 最 后 要 导入 的 库 。skleam 是 scikit-learn 的 缩写 ， 它 是 一 个 广泛 应 用 于 商业 和 
科学 界 的 全 面 的 机 需 学 习 算 法 库 。 在 这 里 ， 我 们 仅 导 入 稍 后 将 使 用 的 train_test_split 
哺 数 。 
你 还 需要 在 SageMaker 上 创建 一 个 角色 ,该 角色 允许 sagemaker 库 使 用 构建 和 运行 机 融 学 习 
应 用 程序 所 需 的 资源 。 你 可 以 通过 调用 sagemaker 库 的 get_execution_role 困 数 来 实现 。 
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一 


代码 清单 2-2 ”导入 模块 


导入 Python 库 
pandas 导入 AWS 库 
Ne 导入 s3fs 模块 ， 


工 Q Q 
mport pandas as p 使 boto3 与 S3 一 


import boto3 、 
导入 面 import sagemaker 起 使 用 更 加 方便 





1Import s3fs 








SageMaker 
from a Se ection NY 仅 导 入 sklearn 库 的 
i1mport train test split train test split 
模块 

role = sagemaker.get execution role() 

s3 = s3fs.S3FileSystem(anon=False) 在 SageMaker 中 
与 S3 建立 创建 一 个 角色 
连接 








提醒 一 下 ， 你 在 浏览 Jupyter 笔记 本 的 每 个 单元 格 时 ， 要 想 运 行 单元 格 中 的 代码 ， 请 单 击 该 
单元 格 ， 然 后 按 Ctrl+Enter 组 合 键 。 


2. 加 载 并 碍 看 数据 

现在 ,你 已 确定 了 存储 桶 和 子 文件 来， 并 设置 好 了 笔记 本 , 接 下 来 就 可 以 查看 数据 。 查 看 数 
据 的 最 佳 方式 是 使 用 在 代码 清单 2-2 中 导入 的 pandas 库 。 

代码 清单 2-3 中 的 代码 创建 了 一 个 名 为 DataFrame 的 pandas 数据 结构 ,你 可 以 将 DataFrame 
看 成 类 似 于 电子 表格 的 表 。 第 一 行将 DataFrame 命名 为 af 。DataFrame 中 的 数据 来 自 于 S3 中 的 订 
单数 据 。 使 用 pandas 函数 read_csv 将 其 谈 和 人 DataFrame。df .head () 这 一 行 展 示 了 df DataFrame 
的 前 $ 行 。 


代码 清单 2-3 ”查看 数据 











集 orders With predicted 
value.csyv 


df = pd.read csyvl( 
f's3://{data bucket}/{subfolder}/{dataset}') 


df.head 去 在 让 ] 
Se 展示 在 前 面 代码 中 读 取 的 
DataFrame 的 前 5 行 


运行 代码 将 展示 数据 集 的 前 5 行 。( 要 运行 代码 , 请 单 击 单元 格 , 然后 按 Ctrl+Enter 组合 键 。) 
数据 集 内 容 与 表 2-2 类 似 。 


表 2-2 在 Excel 中 展示 的 技术 审批 情况 数据 集 


pee eee 











tech approval required requester id role product quantity price total 

0 E2300 tech Desk 1 664 664 

0 E2300 tech Keyboard 9 649 5841 

0 E2374 non-tech Keyboard 1 821 821 

业 E2374 non-tech Desktop 24 655 1:5.7 六 0 
Computer 


0 E2327 non-tech Desk 1 7158 7D8 
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回顾 一 下 ， 你 上 传 到 $3 的 数据 集 现 在 由 af DataFrame 展示 ， 其 中 列 出 了 Karen 处 理 的 最 近 
的 1000 个 订单 。 她 将 其 中 一 些 订 单 发 送 给 了 技术 审批 人 ， 而 有 些 则 没有 。 

代码 清单 2-4 中 的 代码 展示 了 数据 集 的 行 数 ， 以 及 发 送 给 技术 审批 人 的 行 数 。 运 行 代码 ， 会 
显示 数据 集 有 1000 行 ， 其 中 807 行 没有 发 送 给 技术 审批 人 ，193 行 已 经 发 送 。 


代码 清单 2-4 ”确定 进行 技术 审批 的 行 数 


显示 行 数 
print (f'Number of rows in dataset: {df.shape[0]}') 
print (df [df.columns[0]] .value counts()) 


你 不 需要 理解 这 一 行 代码 。 输 出 显示 了 进行 
技术 审批 的 行 数 和 没有 进行 技术 审批 的 行 数 





在 代码 清单 2-4 中 ，DataFrame 的 shape 属性 提供 了 行 数 和 列 数 的 信息 。 这 里 af .shape[0] 
展示 了 行 数 ，dqf.shape[1] 展 示 了 列 数 。DataFrame (df ) 的 value_counts 属性 展示 了 数据 集 
中 进行 技术 审批 的 行 数 ,结果 中 , 如 果 进 行 了 技术 审批 则 显示 1, 如 果 没 有 进行 技术 审批 则 显示 0。 


2.4.2 第 二 部 分 : 将 数据 转换 为 正确 的 格式 


对 于 笔记 本 的 这 一 部 分 ， 你 要 准备 数据 以 供 机 顺 学 习 模 型 使 用 。 在 后 续 章 节 中 ， 你 将 学 到 有 
关 该 主题 的 更 多 内 容 , 但 就 目前 来 说 , 知道 准备 数据 的 标准 方法 就 够 了 。 在 每 个 机 各 学 习 练 习 中 ， 
我 们 都 会 使 用 一 种 方法 。 

关于 大 多 效 机 硕 学 习 模 型 ,需要 了 解 的 重要 的 一 点 是 , 它们 通常 处 理 的 是 数值 而 非 基 于 文本 
的 数据 。 下 一 章 话 细 人 研究 XGBoost 算法 的 时 候 会 讨论 其 原因 。 此 刻 ， 你 只 需要 知道 完 将 基于 文 
本 的 数据 转换 为 数值 型 数据 ,才能 使 用 这 些 数据 训练 你 的 机 硕 学 习 模 型 。 竺 运 的 是 ， 有 一 些 易 用 
的 工具 可 以 助 我 们 一 臂 之 力 。 

首先 , 我 们 将 使 用 pandas 的 get_dqummies 限 数 将 所 有 文本 数据 转换 成 数值 。 它 的 做 法 是 为 
每 个 唯一 的 文本 值 创建 一 个 单独 的 列 。 例 如 ，progduct 列 包 含 文本 值 ， 比 如 Desk、Keyboarqd 
和 Mouse。 使 用 get_dqummies 水 数 时 , 它 会 将 每 个 值 都 转换 成 一 列 , 并 在 相应 的 行 里 填 上 0 或 1， 
这 取决 于 该 行 是 否 包含 值 。 

表 2-3 展示 了 一 个 包含 3 行 的 简 表 。 该 表 展 示 了 写字 台 、 键 盘 和 鼠标 的 价格 。 


表 2-3 简单 的 3 行 数 据 集 ， 其 中 包含 写字 台 、 键 盘 和 鼠标 的 价格 


















































product price 
Desk 664 
Keyboard 69 
Mouse 89 





使 用 get_gdummies 函数 ， 它 会 获取 非 数 值 型 列 的 每 个 唯一 值 ， 并 根据 这 些 值 创建 新 列 。 在 
我 们 的 示例 中 ， 这 将 如 表 2-4 所 示 。 请 注意 ，get_dqummies 图 数 删除 了 product 列 ， 并 根据 数 
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据 集中 的 3 个 唯一 值 创建 了 3 列 。 如 果 新 列 包 含 该 行 中 原来 的 值 , 则 填 和 人 1， 并 在 其 他 列 填 和 人 0。 
表 2-4 使 用 get _ dummies 函数 处 理 后 的 3 行 数据 集 


price product Desk product Keyboard product Mouse 
664 1 0 0 
69 0 中 0 
89 0 0 | 








代码 清单 2-5 展示 了 生成 表 2-4 的 代码 。 要 运行 代码 , 需 将 光标 移动 到 单元 格 内 , 然后 按 Ctrl+ 
Enter 组 合 键 。 可 以 看 到 该 数据 集 的 列 非 常 多 ， 在 我 们 的 例子 中 有 111 列 。 


代码 清单 2-5 ”将 文本 值 转换 为 列 


encoded data = pd.get_ dummies (df) 存储 处 理 后 的 表 ， 表 中 的 列 代表 了 原 


encoded data.head () 始 表 中 每 个 唯一 文本 值 
展示 表 中 前 5 行 的 


pandas 函数 


"| 创建 一 个 新 的 pandas DataFrame 来 





现在 该 数据 集 可 以 用 于 机 条 模 型 算法 了 ， 因 为 它 全 是 数值 。 但 有 一 个 问题 ,你 的 数据 集 列 数 
可 能 非常 多 。 在 图 2-3 和 图 2-4 中 的 样本 数据 集中 ,数据 集 从 2 列 变 为 4 列 。 在 真实 的 数据 集中 ， 
可 以 扩展 到 数 千 列 。 你 运行 单元 格 中 的 代码 时 ， 即 使 是 我 们 在 SageMaker Jupyter 笔记 本 中 的 样 
例 数据 集 也 会 扩展 到 111 列 。 

对 于 机 融 学 习 算 法 来 说 ， 这 不 是 问题 ， 它 可 以 轻松 处 理 具 有 数 千 列 的 数据 集 ， 但 对 你 来 说 
是 个 问题 ， 因 为 解释 数据 将 变 得 更 加 困难 。 因 此 ， 针 对 本 书 中 涉及 的 机 需 学 习 决 策 问题 ， 你 通 
常 可 以 将 列 数 减少 到 只 包含 和 决策 结果 最 相关 的 那些 列 ， 结 果 同 样 准确 。 这 对 于 你 加 别人 解释 
清楚 算法 是 如 何 工 作 的 非常 重要 。 例 如 ， 在 本草 使 用 的 数据 集中 ， 相 关 性 最 高 的 列 是 与 技术 产 
辣 类 型 有 关 的 列 以 及 与 申请 者 是 否 为 技术 人 员 有 关 的 列 。 这 是 合理 的 ,并且 能 够 价 单 明了 地 癌 
别人 解释 。 

对 于 这 个 机 和 融 学 习 问 题 , 相关 列 是 指 该 列 包含 的 值 与 要 预测 的 值 相关 。 你 可 以 说 当 一 个 值 随 
着 男 一 个 值 的 变化 而 变化 时 ,这 两 个 值 就 是 相关 的 。 如 果 这 两 个 值 一 起 增 大 或 者 减 小 ， 则 表示 它 
们 是 正 相 关 的 一 一 它们 沿 相 同 的 方 呵 变动 。 当 一 个 值 增 大 而 男 一 个 值 减 小 (反之 亦 然 ) 时 ， 则 表 
示 它 们 是 负 相 关 的 一 一 它们 治 相反 的 方向 变动 。 就 我 们 这 个 问题 来 说 ,机 需 学 习 算 法 并 不 关心 两 
个 列 是 正 相 关 还 是 负 相 关 ， 而 只 关心 它们 是 否 相 关 。 

相关 性 非常 重要 , 因为 机 需 学 习 算法 就 是 和 党 试 根据 数据 集中 其 他 列 的 值 来 预测 结果 。 数 据 集 
中 对 预测 贡献 最 大 的 值 束 是 那些 与 预测 值 相 关 的 值 。 

通过 调用 为 一 个 名 为 corr 的 pandas 果 数 ， 你 可 以 找到 相关 性 最 大 的 列 。 通 过 在 代码 清单 2-5 
中 encoded_gata DataFrame 后 面 添 加 .corr () ， 你 就 可 以 调用 corr 哺 数 。 在 该 限 数 后 面 ， 你 需 
要 提供 表示 预测 结果 的 列 的 名 称 。 在 这 个 例子 里 ,你 要 尝试 预测 的 是 tech_approval_required 
列 。 代 码 清单 2-6 显示 了 执行 上 述 操 作 的 代码 。 请 注意 ， 该 代码 清单 末尾 的 .abs () 函数 只 是 返 
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回 相 关 性 的 绝对 值 。 


代码 清单 2-6 ” 找 出 相关 的 列 
创建 一 个 名 为 corrs 的 序列 〈 只 有 一 列 
Corrs = encoded data.Cor () [ 的 DataFrame)， 列 出 使 用 代码 清单 2-5 
'tech_approval_required' | 创建 的 111 列 数据 集中 的 所 有 列 


] .abs () 
Se = COIIS OIL > .1] .index 找 出 相关 性 大 于 10% 
Corrs = corrs.filter (columns) 的 列 
COrrs : 
只 过 滤 掉 相关 性 大 于 10% 


Jupyter 笔记 本 会 在 一 个 单元 格 
中 展示 最 后 一 行 代码 的 输出 。 由 
于 最 后 一 行 代 码 是 变量 的 名 称 ， 

因此 运行 单元 格 中 的 代码 时 它 将 


四 一 让 R 旦 
显示 变量 名 


的 列 


代码 清单 2-6 中 的 代码 找 出 了 相关 性 大 于 10% 的 列 。 你 无 须 清楚 地 知道 代码 的 工作 原理 。 你 
只 是 在 查找 与 tech_approval_requitred 列 的 相关 性 大 于 10% 的 所 有 列 。 为 什么 是 10% 呢 ? 
这 个 值 可 以 过 滤 掉 数据 集中 不 相关 的 干扰 ， 尽管 此 步骤 对 机 天 学 习 算 法 本 映 没 什么 帮助 , 但 可 以 
帮助 你 里 有 成 效 地 解释 数据 。 需 要 考虑 的 列 少 了 ， 你 可 以 更 轻松 地 加 别人 解释 算法 在 干什么 了 。 

表 2-5 展示 了 相关 性 大 于 10% 的 列 。 


表 2-5 与 预测 值 的 相关 性 


























Column name Correlation with predicted value 
tech approval_ required 1.000000 
role non-tech 0.122454 
role _ tech 0.122454 
product_Chair 0.134168 
product_Cleaning 0.191539 
product_Desk O0292137 
product Desktop Computer 0.752144 
product_ Keyboard 0 .242224 
product_ Laptop Computer 0.516693 
product Mouse 0.190708 














现在 ， 你 已 经 确定 了 相关 性 最 高 的 列 ， 需 要 对 encoded_data 表 进 行 过 滤 操 作 以 只 保留 这 
些 列 。 你 可 以 使 用 代码 清单 2-7 中 的 代码 进行 操作 ， 第 一 行 代码 对 原 有 列 进行 过 滤 ， 仪 留 下 相关 
列 ， 而 运行 第 二 行 代码 会 展示 该 表 。 请 记 住 ， 要 运行 代码 ， 请 单 击 单元 格 ， 人 然后 按 Ctrl+Enter 组 
合 键 。 


代码 清单 2-7 只 展示 相关 列 


encoded data = encoded datalcolumnsl 


encoded data.head() 
运行 单元 格 的 代 
人 码 就 会 展示 表 





过 滤 ， 以 保留 与 tech approval required 


列 相关 的 列 
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2.4.3 第 三 部 分 : 创建 训练 集 、 验 证 集 和 测试 集 


机 需 学 习 过 程 的 下 一 步 是 创建 用 于 训练 算法 的 数据 集 。 在 训练 过 程 中 , 你 还 将 创建 用 于 验证 
和 测试 结果 的 数据 集 。 为 此 ， 你 将 数据 集 分 为 3 个 部 分 : 

口 训练 集 

口 验证 集 

口 测试 集 

机 融 学 习 算 法 使 用 训练 集 来 训练 模型 ， 你 应 该 将 数据 集中 的 最 大 一 部 分 作为 训练 集 。 验 证 集 
用 于 检验 算法 是 否 提升 ， 它 应 该 是 数据 集中 第 二 大 部 分 。 最 后 ， 你 将 使 用 最 小 的 一 部 分 数据 , 也 
就 是 测试 集 来 评估 算法 的 表现 。 你 准备 好 这 3 个 数据 集 后 ， 将 它们 转换 为 CSV 格式 ， 然 后 上 传 
3 

在 代码 清单 2-8 中 , 你 创建 了 两 个 数据 集 : 具有 70% 数 据 的 训练 集 以 及 具有 30% 数 据 的 验证 
和 测试 集 。 然 后 ， 将 验证 和 测试 数据 拆 分 为 两 个 单独 的 数据 集 : 验证 集 和 测试 集 。 验 证 集 将 包含 
总 数据 的 20%， 相当 于 验证 和 测试 集 的 66.7%。 测 试 集 将 包含 总 数据 的 10%，,， 相当 于 验证 和 测试 
集 的 33.3%。 要 运行 代码 ， 请 选中 单元 格 ， 然 后 按 Ctrl+Enter 组 合 键 。 


代码 清单 2-8 ”将 数据 分 为 训练 集 、 验 证 集 和 测试 集 





























train df, val_and test data = train test splitl( 
encoded data, 时 
test_size=0.3, 将 70% 的 数据 作 
random_state=0) 为 训练 集 


veal df, teést df = tralin’' test, SDL1it( 
val_and test data, 


test size=0.333, 将 20% 的 数据 作为 验 
random state=0) 证 集 , 10% 的 数据 作为 


测试 集 
注意 random_state 参数 确保 重复 执行 代码 ， 拆 分 数据 的 方式 不 变 。 


在 代码 清单 2-8 中 ， 我 们 将 数据 拆 分 为 3 个 DataFrame。 在 代码 清单 2-9 中 ， 我 们 将 数据 集 
转化 为 CSV 格式 。 


输入 和 CSV 格式 

CSV 是 XGBoost 机 器 学 习 模 型 的 两 种 输入 格式 之 一 。 本 书 代 码 采 用 CSV 格式 。 这 是 因为 
如 果 要 查看 电子 表格 中 的 数据 ， 可 以 很 容 多 地 将 其 导入 Microsoft Excel 等 电子 表格 应 用 程序 
中 。 使 用 CSV 格式 的 缺点 是 , 如果 数 据 集中 包含 很 多 列 ( 如 代码 清单 2-5 中 使 用 get_dummies 
函数 之 后 的 encode_ data 数据 集 )， 就 会 占用 大 量 空 间 。 

XGBoost 可 以 使 用 的 另 一 种 格式 是 libsvm。 与 CSV 文件 (即使 是 包含 0 的 列 ， 也 要 包含 
进去 ) 不 同 ，libsvm 格 式 只 包含 非 零 列 ， 方 法 是 将 列 号 和 值 连接 起 来 。 因 此 ， 表 2-2 中 的 数据 
将 如 下 所 示 : 
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1 s664d 2 
jsGY9 3s1 
389 2 31 


每 行 的 第 一 个 元 素 展示 了 价格 ( 664、69 或 89 )。 价格 前 面 的 数字 表示 了 这 是 数据 集中 
的 第 一 列 。 每 行 的 第 二 个 元 素 包 含 了 列 号 (2、3 或 者 4) 和 该 列 的 非 零 值 ( 在 我 们 的 例子 中 ， 
始终 为 1 )。 因 此 1:89 4:1 表示 该 行 第 一 列 的 值 为 89， 第 四 列 的 值 为 1， 所 有 其 他 列 的 值 
为 0。 

可 以 看 到 ， 在 CSV 文件 上 使 用 libsvm 将 我 们 的 数据 集 从 4 列 变 成 了 2 列 。 不 过 不 必 纠 结 
于 此 。SageMaker 和 XGBoost 可 以 很 好 地 处 理 包 含 数 千 列 的 CSV 文件 。 但是， 如 果 你 的 数据 
集 非常 宽 ( 有数 万 列 )， 你 可 能 需要 使 用 libsvm 而 不 是 CSV; 否则 , 使 用 CSV， 因 为 它 更 容易 
人 


代码 清单 2-9 展示 了 如 何 使 用 pandas 因数 to_csv 从 代码 清单 2-8 中 创建 的 DataFrame 中 创 
建 CSV 数据 集 。 要 运行 代码 ， 单 击 单元 格 ， 然 后 按 Ctrl+Enter 组 合 键 。 


代码 清单 2-9 ”将 数据 转换 为 CSV 








train data = train df.to csv (None, header=False, index=False) .encode ( ) 
val data = val df.to csv (None, header=False, index=False) .encodqe ( ) 
test data = test df.to csv(None, header=True, index=False) .encode() 




















to_csv 国 数 的 None 参数 表示 你 不 想 保 存 为 文件 。heaqet 参数 表示 CSV 文件 是 否 包含 表 
头 。 对 于 train_data 和 val_gdata 数据 集 ， 不 用 包含 表 头 【headqer=False )， 因 为 机 向 学 习 
算法 要 求 每 一 列 的 值 均 为 数值 。 对 于 test_gata 数据 集 ， 则 最 好 包含 表 头 ， 因 为 你 会 在 测试 数 
据 上 运行 训练 后 的 算法 ， 包 含 表 头 会 有 助 于 此 。inqaex=False 参数 则 告诉 男 数 不 包括 有 行 号 的 
列 。encode() 函数 可 确保 CSV 文件 中 的 文本 格式 正确 。 








注意 以 正确 的 格式 编码 文本 可 能 是 机 器 学 习 中 最 令 人 恼火 的 一 部 分 。 幸 运 的 是 ， 其 中 很 多 复 
杂 的 地 方 是 由 pandas 库 处 理 的 ， 因 此 一 般 来 说 你 不 用 担心 。 只 需要 记 住 ， 如 果 将 文件 保 
存 为 CSV， 就 要 使 用 encodqe () 函数 。 


在 代码 清单 2-9 中 , 你 从 train、val 和 test 这 3 个 DataFrame 中 创建 了 CSYV 文件 。 但 是 ， 
除了 保存 在 Jupyter 笔记 本 的 内 存 里 , CSV 文件 还 没有 保存 到 任何 其 他 地 方 。 在 代码 清单 2-10 中 ， 
你 将 把 CSV 文件 保存 到 S3 中 。 

在 代码 清单 2-2 的 第 四 行 ， 你 导入 了 一 个 名 为 s3fs 的 Python 模块 。 该 模块 使 S3 使 用 起 来 
更 方便 。 在 该 代码 清单 的 最 后 一 行 ， 你 将 s3 变量 赋值 给 了 S3 文件 系统 。 现 在 ， 你 将 使 用 该 变 
量 来 操作 S3。 为 此 ， 你 将 使 用 Python 的 with. . .open 语法 表示 要 写 人 的 文件 名 和 位 置 ， 并 使 
用 write 因数 将 变量 的 内 容 写 入 该 位 置 ， 如 代码 清单 2-10 所 示 。 
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请 记 住 ， 在 创建 文件 时 要 使 用 'wb' 来 表示 你 正在 以 二 进 制 模 式 而 不 是 文本 模式 写 入 文件 的 
内 容 (你 无 须知 道 它 是 如 何 工 作 的， 只 需要 知道 这 样 保存 后 , 读 取 到 的 数据 与 保存 的 完全 一 人 致 )。 
要 运行 代码 ， 请 单 击 单元 格 ， 人 然后 按 Ctrl+Enter 组 合 键 。 


代码 清单 2-10 保存 CSV 文件 到 S3 

















with s3.o0pen(f'{data bucket}/{subfolder}/processed/train.csv', 'wb') as f: 
f.write(train data,) Ea 将 train.csv 文件 写 入 S3 

with s3.o0pen(f'{data bucket}/{subfolder}/processed/val.csv', 'wb') as ff: 
f .write (val data) iam 将 val.csyv 文件 写 入 S3 

with s3.o0pen(f'{data bucket}/{subfolder}/processed/test.csv', 'wb') as ff: 
f .writel(test_ data) | 将 testicsv 文件 写 入 S3 


2.4.4 ”第 四 部 分 : 训练 模型 


下 面 可 以 开始 训练 模型 了 。 此 时 你 无 须 详 细 了 解 其 工作 原理 ， 只 需要 了 解 它 的 作用 即 可 ， 因 
此 本 部 分 的 代码 不 会 像 前 面 代 码 清单 中 那样 进行 注释 。 

首先 , 你 需要 将 你 的 CSV 数据 加 载 到 SageMaker 中 。 这 可 以 通过 SageMaker 哨 数 s3_input 
来 完成 。 在 代码 清单 2-11 中 ， s3 lnput 文件 称 为 train_input 和 test_input。 请 注意 ， 你 不 
需要 将 test.csv 文件 加 载 到 SageMaker 中 ， 因 为 它 不 用 于 训练 和 验证 模型 ， 而 是 在 最 后 用 于 测试 
模型 结 采 。 要 运行 代码 ， 单 击 单 元 格 ， 然 后 按 Ctrl+Enter 组 合 键 。 


代码 清单 2-11 为 SageMaker 准备 CSV 数据 
train input = sagemaker.s3_input( 
s3_data=f's3://{data bucket}/{subfolder}/processed/train.csy', 
content_ type=' CSV' ) 




















val_input = sagemaker.s3_ 1nput ( 
s3_data=f's3://{data bucket}/{subfolder}/processed/val.csyv', 
content_type='csyv') 


代码 清单 2-12 才 是 真正 神奇 之 处 。 正 是 它 使 没有 系统 工程 经 验 的 人 能 够 做 机 需 学 习 相 关 的 
工作 。 在 这 个 代码 清单 中 ， 你 要 训练 机 融 学 习 模 型 。 尽 管 这 上 听 起 来 很 简单 ， 但 是 使 用 SageMaker 
可 以 轻松 地 做 到 这 一 点 ,与 必须 目 己 建立 基础 架构 来 训练 机 需 学 习 模 型 相 比 , 迈 出 了 一 大 步 。 在 
代码 清单 2-12 中 ， 你 可 以 

(1) 设置 一 个 名 叫 sess 的 变量 来 保存 SageMaker 会 话 ; 

(2) 定义 AWS 在 哪个 容器 中 存储 模型 〈 使 用 代码 清单 2-12 中 给 出 的 容器 ); 

(3) 创建 模型 (保存 在 代码 清单 2-12 中 的 变量 sstimator 中 ); 

(4) 为 estimator 设置 超 参数 。 

你 将 在 接 下 来 的 几 间 里 详细 了 解 上 述 每 一 个 步 纤 ， 因 此 ， 此 刻 你 无 须 对 此 进行 深入 了 解 ， 只 
需要 允 道 代码 清单 中 的 代码 会 生成 模型 ， 局 动 服务 融 来 运行 模型 ， 然 后 基于 数据 进行 模型 训练 。 
如 果 在 笔记 本 单元 格 里 按 Ctrlt+Enter 组 合 键 ， 模 型 就 会 运行 。 
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代码 清单 2-12 ”训练 模型 








sess = sagemaker.Sessionl() 

container = sagemaker.amazon.amazon estimator.get_image_ uri( 
boto3.Session() .region name, 
'xgboost', 
'latest') 

estimator = sagemaker.estimator.Estimator ( 设置 SageMaker 用 
container, 于 运行 模型 的 服务 
role, 怖 类 型 
EECeSSIEELY ee 
train instance type='ml .m5.1large', S3 中 的 该 位 轩 
output_path= \ JJ] 女 忆 直 

f's3://{data bucket}/{subfolder}/output', 





sagemaker_session=sess) 
SageMaker 具有 非常 复杂 的 起 参数 调 优 能 
要 使 用 调 优 范 数 , 你 只 需 保证 正确 设置 目标 。 对 


estimator.set_hyperparameters ( 于 当前 的 数据 集 (你 要 预测 的 结果 非 0 即 1)， 
max_depth=3, 你 应 该 将 其 设置 为 bpinary:1ogistic。 后 续 章 
subsample=0.7, 节 会 详细 介绍 该 内 容 
人 训练 迁 代 次 数 的 最 大 值 。 第 3 章 会 
eVvVal_ metric = "auc'， 详细 介绍 该 内 容 
num round=100, hs 


early_stopping_ rounds=10) 





estimator.fit({'train': train input, 'validation': val_ input}) 
告诉 SageMaker 对 超 参 数 进行 调 优 以 得 在 训练 终止 前 , 模型 没有 
到 最 优 曲线 下 面积 。 同 样 ， 后 续 章节 将 详 改善 的 情况 下 的 训练 迭 
细 介 绍 该 内 容 代 次 数 





训练 模型 大 约 需要 5 分 钟 , 你 可 以 坐 下 来 想 想 不 用 手动 配置 服务 希 和 安 次 软件 来 训练 模型 是 
多 么 令 人 高 兴 。 服 务 表 仅 运行 大 约 一 分 钟 的 时 间 ,， 因 此 你 只 需要 文 付 一 分 钟 计 算 时 间 的 费用 。 在 
撰写 本 书 时 ，m5 大 型 服务 器 的 价格 低 于 每 小 时 0.1 美元 。 将 模型 存储 在 S3 中 ， 这 样 你 就 可 以 随 
时 使 用 它 ， 而 无 须 重新 训练 模型 。 后 续 章 节 将 对 此 进行 更 多 的 介绍 。 








2.4.5 ”第 五 部 分 : 部 署 模 型 


本 市 代码 也 很 神奇 。 在 本 节 中 ,你 将 启动 男 一 个 服务 器 来 部 署 模 型 。 这 个 服务 器 用 于 基于 训 
练 好 的 模型 进行 预测 。 

同样 , 你 暂时 不 需要 了 解 本 节 代 码 清单 中 代码 的 工作 原理 ,只 需要 了 解 它 正 在 创建 用 于 预测 
的 服务 着 即 可 。 代 码 清单 2-13 调用 闪 点 order-approval, 并 使 用 Python 的 try-except 代码 
块 创 建 该 端点 。 

try-except 代码 块 会 试 着 运行 代码 ， 如 果 报 错 ， 它 将 运行 except 行 后 面 的 代码 。 这 么 做 
的 原因 是 你 只 想 用 尚未 使 用 的 名 称 设置 端点 ,代码 清单 2-13 试 图 设置 一 个 名 为 order-approval 
的 端点 。 如 有 果 没 有 和 名 为 Order= eopPreYal 的 并 点 ， 则 设置 一 个 。 如 果 已 经 存在 一 个 order- 
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approval 端点 ， 则 try 代码 块 会 报错 ， 然 后 运行 except 代码 块 。 在 本 例 中 ，except 代码 块 
只 是 继续 使 用 order-approval 交点 。 


代码 清单 2-13 ”部 署 模型 
endpoint_ name = 'order-approval' 
EYVY 
sess.delete endpoint\( 
sagemaker .predictor.RealTimepredictor!l! 
endpoint=endpoint_name) .endpoint) 
print ('Warning: Existing endpoint deleted\ 
to make way for your new endpoint.') 
exCept: 
pass 
predictor = estimator.deploy (i1nitial instance count=1, 在 本 例 中 ， 你 使 用 的 服务 


instance type='ml.t2.medium’', 1 
ee 器 类 型 为 mlt2.medium 
endpoint name=endpoint name,) 





服务 器 
from sagemaker.predictor import csv_serializer, JjJson serializer 
predictor.content type = 'text/csy' 
predictor.serializer = csv_serializer 
predictor.deserializer = None 





代码 清单 2-13 设置 了 t2.medium 级 别 的 服务 化 ， 与 用 于 训练 模型 的 m5.large 服务 硕 相 比 ， 
这 是 一 个 性 能 较 弱 的 服务 需 , 因为 基于 模型 进行 预测 比 创建 模型 需要 的 计算 量 少 。try 代码 块 和 
except 代码 块 创建 了 一 个 名 为 predictor 的 变量 ， 你 将 使 用 该 变量 来 测试 和 使 用 该 模型 。 最 
后 4 行 代码 设置 以 CSV 文件 作为 输入 的 predictor， 以 便于 你 更 轻松 地 使 用 。 

请 注意 , 当 你 在 笔记 本 单元 格 中 按 Ctrl+Enter 组 合 键 时 , 代码 需要 $ 分 钟 才 能 完成 首次 运行 。 
因为 它 正 在 设置 服务 需 以 部 署 模型 和 创建 庙 点 ， 以 便 你 可 以 使 用 模型 ， 所 以 这 需要 时 间 。 














2.4.6 ”第 六 部 分 : 测试 模型 


现在 你 已 经 训练 完 模 型 ， 并 部 署 在 了 服务 器 (名 为 predictor 的 端点 ) 上 ， 你 可 以 开始 使 
用 模型 进行 预测 了 。 人 代码 清单 2-14 的 前 3 行 代码 会 创建 一 个 函数 ， 你 可 以 用 它 测试 每 一 条 测试 
数据 。 


代码 清单 2-14 ”获得 预测 结 
def get _ prediction (row): 
prediction = roungd(float (predictor.predict (row[l1:]) .decode('utf-8'))) 
return prediction 





with s3.o0pen(f'{data bucket}/{subfolder}/processed/test.csv') as ff: 
test data = pd.read csv(f) 


test datal[l'prediction'] = test data.apply (get_ prediction, axis=1) 
test_ data.set_index('prediction', inplace=True) 
test _ data 





代码 清单 2-14 中 的 get_prediction 果 数 该 取 测 斌 数据 中 的 每 一 列 〈 第 一 列 除 外 ， 因 为 这 
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是 你 要 预测 的 值 )， 然 后 将 其 发 送 给 predictor， 并 返回 预测 结果 。 在 这 个 例子 中 ， 如 果 应 该 将 
订单 发 送 给 审批 人 ， 则 预测 结果 为 1; 如 果 不 应 该 将 订单 发 送 给 审批 人 ， 则 预测 结果 为 0。 

接 下 来 的 两 行 代码 将 打开 test.csv 文件 ， 并 将 内 容 读 入 名 为 test_qdata 的 pandas DataFrame 
中 。 现 在 ， 你 可 以 使 用 与 代码 清单 2-7 中 处 理 原始 数据 集 相 同 的 方法 来 处 理 该 DataFrame。 最 后 
3 行 代码 调用 了 在 前 3 行 代码 中 创建 的 函数 。 

你 在 包含 代码 清单 2-14 的 单元 格 中 按 Ctrl+Enter 组 合 键 时 , 会 看 到 测试 文件 中 每 一 行 数据 的 
结果 。 表 2-6 展示 了 测试 数据 的 前 两 行 。 每 一 行 代表 一 个 订单 。 例 如 ， 如 果 某 位 技术 人 员 下 了 办 
公 昌 订单 ， 则 role_tech 和 product_desk 列 为 1， 其 他 所 有 列 为 0。 


表 2-6 来 自 predictor 的 测试 结果 








Predic- tech. role role product product product_ product_ product _ product_ product _ 
tion approval_ non-tech tech Chair Cleanin Desktop Keyboard Laptop Mouse 
required 9 Desk Computer Y Computer 
由 下 1 0 0 0 0 0 0 0 
0 0 下 0 0 下 0 0 0 0 0 





第 一 行 prediction 列 中 的 1 表示 模型 预测 应 将 此 订单 发 送 给 技术 审批 人 。tech_approval_ 
required 列 中 的 1 表示 在 你 的 测试 数据 中 ， 此 订单 被 标记 为 需要 进行 技术 审批 。 这 意味 着 机 玫 
学 习 模 型 预测 正确 。 

要 了 解 原因 , 请 查看 tech_approval_required 列 右边 列 的 值 。 你 会 看 到 此 订单 是 非 技术 
人 员 下 的 ， 因 为 role_non-tech 列 的 值 为 1， 而 role_tech 列 的 值 为 0。 你 还 可 以 看 到 订购 
的 产品 是 台式 计算 机 ， 因为 Product Desktop Computer 列 的 值 为 | 

第 二 行 prediction 列 中 的 0 表示 模型 预测 此 订单 不 需要 技术 审批 。tech_approval_ 
regquired 列 中 的 0 (与 prediction 列 中 的 值 相同 ) 表示 模型 预测 正确 。 

role_non-tech 列 中 的 1 表示 该 订单 也 是 由 非 技 术 人 员 下 的 ， 但 product Cleaning 列 
中 的 1 表示 该 订单 为 保洁 产品 ， 因 此 不 需要 技术 审批 。 

查看 结果 时 ,你 可 以 看 到 机 带 学 习 模 型 几乎 完全 正确 ! 你 构建 了 一 个 机 带 学 习 模 型 ,无 须 编 
写 任 何 规划 , 该 模型 就 可 以 正确 地 判断 是 否 将 订 蛙 发 送 给 技术 审批 人 。 要 确定 结果 的 准确 性 ,你 
可 以 计算 与 测试 结 末 一 致 的 预测 结 采 数 ， 如 代码 清单 2-15 所 示 。 


代码 清单 2-15 ”测试 模型 


























(test_ datal[l'prediction'] == \ 展示 与 测试 集结 果 一 致 的 
test datal'tech approval required']) .mean ( ) 预测 结果 所 占 的 百分比 


2.5 删除 冰点 并 俘 止 你 的 笔记 本 实例 


在 不 需要 使 用 的 时 候 ， 请 何止 你 的 笔记 本 实例 并 删除 端点 ， 这 一 点 很 重要 。 如 采 你 让 它们 一 
直 运 行 , 则 每 时 每 刻 都 在 计 费 。 本 书 中 使 用 的 服务 硕 费 用 不 高 〈《 如 果 你 将 一 个 笔记 本 实例 或 者 端 
点 保留 一 个 月 ， 大 约 需 要 花费 20 美元 )， 但 为 没有 使 用 的 东西 付 钱 是 没有 意义 的 。 
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2.5.1 ”删除 端点 
要 删除 端点 ， 请 在 SageMaker 选项 卡 的 左 侧 菜 单 上 单 击 Endpoints， 如 图 2-9 所 示 。 


vw Training 
Algorithms 
Training jobs 


Hyperparameter tuning jobs 


vw Inference 
Compilation jobs 
Model packages 
Models 
Endpoint configurations 


选择 Endpoints 
Endpoints 








Batch transform jobs 


图 2-9 ”选择 要 删除 的 剖 点 


你 会 看 到 所 有 正在 运行 的 端点 列表 ， 如 图 2-10 所 示 。 为 确保 未 使 用 的 端点 不 产生 费用 ， 你 
应 删除 所 有 未 使 用 的 端点 。( 请 记 住 ， 端 点 很 容易 创建 ， 因 此 即使 是 几 个 小 时 不 使 用 该 端点 ， 你 
也 应 该 删除 它 。) 


Amazon SageMaker Endpoints 
Q Search endpoints 1 人 
Creation 
Name Vv ARN 人 Status v -a 
time vv 显示 端点 
网 
正在 运行 
Jun 15, 
order-approval arn:aws:sagemaker:us-east- endpoint/order-approval 2019 00:06 © InService 
UTC 











要 删除 端点 ， 请 单 击 order-approval 左 侧 的 单 选 按钮 ， 然 后 单 击 Actions 菜单 项 ,接着 单 击 出 
现 的 Delete 菜单 项 ， 如 图 2-11 所 示 。 
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Add/Edit tags 
Q Search endpoints : 选择 Delete 1 全 
i Delete 
Name 豆 ARN Creation See Last 
time v updated 














1. 选择 单 Jun 15, 0 
选 按钮 © order-approval arn:aws:endpoint/order-approval 2019 00:06 © InService 00:16 
UTC 


UTC 


图 2-11 删除 端点 


现在 , 你 已 经 删除 了 该 端点 , 也 就 不 再 产生 AWS 费用 了 。 你 在 Endpoints 页 面 上 看 到 “There 
are currently no resources” 字 样 时 ， 可 以 确定 所 有 端点 已 经 删除 完毕 ， 如 几 2-12 所 示 。 


Amazon SageMaker > Endpoints 
Q Search endpoints 《 > 侠 
Name 如 ARN Creation time 如 Status 及 Last updated 


There are currently no resources. 人生 一 、- 一 疹 尽 已 成 功 删 除 





图 2-12 ”端点 已 删除 


2.5.2 ”停止 笔记 本 实例 


最 后 一 步 是 停止 笔记 本 实例 。 与 问 点 不 同 , 你 不 用 删除 笔记 本 ， 只 需 将 其 停止 ,以便 再 次 启 
动 , 启动 后 笔记 本 中 的 所 有 代码 都 可 以 再 次 运行 。 要 停止 笔记 本 实例 , 请 单 击 SageMaker 左 侧 某 
单 中 的 Notebook instances， 如 图 2-13 所 示 。 








QW: Services ~ 
Amazon SageMaker xX 


Dashboard 


Search 


v Ground Truth 
Labeling jobs 
Labeling datasets 


选择 Notebook instances 


Labeling workforces 


v Notebook 
Notebook instances 


Lifecycle configurations 





Git repositories 


图 2-13 ”选择 笔记 本 实例 以 准备 终止 











38 第 2 章 你 是 否 应 该 将 采购 订单 发 送 给 技术 审批 人 





要 停止 笔记 本 ， 请 选择 笔记 本 实例 名 称 劳 边 的 单 选 按钮 ， 然 后 在 Actions 荣 单 上 选择 Stop， 
如 图 2-14 所 示 。 笔 记 本 实例 俘 止 后 ， 你 可 以 通过 单 击 Status 来 确保 它 不 再 运行 。 








Amazon SageMaker Notebook instances 
Notebook instances | Actions v 
Q Search notebook instances 选择 Stop EE 
~、 Open JupyterLab 
Name v Instance Creation time 是 ?top 


1. 选择 单 
选 按 钮 一 *o mlforbusiness-cho0 2 mlt2.large May 21, 2018 11:29 UTC Add/Edit tags 


图 2-14 停止 笔记 本 
本 章 主 要 介绍 如 何 帮助 Karen 决定 是 否 将 订单 发 送 给 技术 审批 人 。 你 从 头 到 尾 地 经 历 了 一 个 
机 融 学 习 场 景 。 该 场景 涉及 如 何 确 定 是 否 将 订单 发 送 给 技术 审批 人 。 在 学 习 使 用 机 需 学 习 在 业务 
目 动 化 中 进行 决策 的 其 他 示例 时 ， 你 在 本 草 学 到 的 技能 始终 会 派 上 用 场 。 





2.6 小结 


口 你 可 以 通过 确定 决策 点 来 发 现 机 可 学 习 的 用 武之 地 。 

口 使 用 AWS SageMaker 和 Jupyter 笔记 本 配置 SageMaker 并 构建 机 各 学 习 系 统 非 常 简 单 。 
口 你 将 数据 发 送 到 机 希 学 习 闪 点 来 进行 预测 。 

口 你 可 以 通过 将 数据 转换 为 CSV 文件 来 查看 预测 结 

口 为 确保 未 使 用 的 端点 不 会 产生 费用 ， 你 应 删除 所 有 未 使 用 的 端点 。 





你 是 否 应 该 致电 各 户 
以 防 上 换 尸 流失 





口 识别 将 要 流失 的 客户 

口 如 何在 分 析 中 处 理 倾 笠 的 数据 
口 XGBoost 的 工作 原理 

口 S3 和 SageMaker 的 其 他 实践 








当 客 户 不 再 同 公 司 订 贷 时 ，Carlos 会 亲 目 人 处理。 他 是 一 家 面包 店 的 运营 负责 人 ,该 面包 店 问 
饭店 和 旅馆 出 售 优质 面包 和 其 他 烘焙 食品 。 他 和 大 多 数 客 户 已 建立 了 长 期 的 合作 关系 , 但 还 是 经 
第 会 被 苑 争 对 手 抢 走 一 些 客户 。 为 了 留 住 客户 ，Carlos 会 给 那些 不 再 订购 的 客户 致电 。 他 从 每 个 
客户 那里 昕 到 了 类 似 的 说 套 : 他 们 言 欢 他 的 面包 , 但 他 的 面包 太 贯 了 ， 他 们 的 利润 率 降低 了 ， 
此 ,他 们 试用 了 男 一 家 较 便 宜 面 包 店 的 面包 。 经 过 试用 ,他 的 客户 得 出 结论 ， 尺 管 面包 店 提 供 的 
面包 质量 较 低 ， 但 他 们 的 饭菜 质量 仍 可 接受 。 

流失 是 表示 失去 客户 的 术语 。 这 对 Carlos 来 说 还 是 个 好 词 , 因为 这 表明 客户 可 能 还 没有 停止 
订购 面包 ， 他 们 只 是 从 别人 那里 订购 而 已 。 

Carlos 来 回 你 寻求 帮助 ， 以 找 出 正在 尝试 男 一 家 面包 店 的 客户 。 一旦 确定 了 这 些 客 户 ， 他 就 
可 以 给 他 们 打 电 话 ， 以 确定 是 否 可 以 挽留 他 们 。 在 Carlos 与 那些 失去 的 客户 的 对 话 中 ,他 发 现 了 
一 种 常见 的 模式 。 

口 客户 定期 (通常 每 天 ) 下 订单 。 

口 客户 试用 了 另 一 家 面包 店 ， 导 致 Carlos 面包 店 的 订单 数量 下 降 了 。 

口 客户 与 为 一 家 面包 店 达 成 了 协议 ,该 浴 议 可 能 会 也 可 能 不 会 导致 暂时 中 止 癌 Carlos 的 面 

包 店 下 单 。 

口 客户 完全 停止 从 他 的 面包 店 订 购 面包 。 

在 本 曹 中 ,你 将 帮助 Carlos 了 解 哪些 客户 有 流失 的 风险 , 这样 他 就 可 以 辣 他 们 致电 ,以 确定 
是 否 有 办 法 解决 客户 转 回 其 他 供应 商 的 问题 。 为 了 帮助 Carlos， 你 将 以 第 2 半 中 了 解 Karen 的 流 
程 类 似 的 方式 来 了 解 该 业务 流程 。 
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对 于 Karen 的 流程 ， 你 人 研究 了 订单 如 何 从 申请 者 流转 到 审批 人 ,以 及 Karen 用 来 决定 是 否 将 
订单 发 送 给 技术 审批 人 的 特征 。 接 看 , 你 构建 了 一 个 SageMaker XGBoost 应 用 程序 来 自动 执行 决 
策 。 同 样 ， 对 于 Carlos 因为 客户 流失 风险 而 决定 是 否 致电 客户 的 问题 ， 你 将 构建 一 个 SageMaker 
XGBoost 应 用 程序 , 该 应 用 程序 每 周 都 会 检查 Carlos 的 客户 ,并 为 Carlos 决定 是 否 应 致电 这 些 客户 。 


3.1 你 在 决策 什么 


和 不 一 看 ， 这 很 像 第 2 章 中 的 处 理 订 单数 据 ，Karen 查看 订单 并 决定 是 否 发 送 给 技术 审批 人 。 
在 本 章 中 ,Carlos 查看 客户 订单 ,决定 是 否 致电 该 客户 。 第 2 章 中 Karen 的 处理 流程 与 本 章 中 Carlos 
的 处 理 流程 之 间 的 区 别 在 于 ， 在 第 2 革 中 ， 你 对 订单 做 了 决策 一 一 Karen 是 否 应 该 将 订单 发 送 给 
审批 人 ， 而 在 本 章 中 ， 你 制定 有 关 客 户 的 决策 一 一 Carlos 是 否 应 该 致电 客户 。 

这 意味 看 你 不 仪 宕 要 获取 订单 数据 作为 你 的 数据 集 , 而 且 还 需要 先 将 订单 数据 转换 为 客户 相 
关 的 数据 。 在 后 续 几 音 中 ,你 将 了 解 如 何 使 用 一 些 自 动 化 工具 来 执行 此 操作 , 但 在 本 章 中 ， 你 将 
先 了 解 该 过 程 的 概念 ， 且 本 章 会 为 你 提供 转换 后 的 数据 集 。 不 过 在 查看 数据 之 前 ， 先 来 看 一 下 我 
们 想 要 目 动 化 的 流程 。 


3.2 ”处 理 流程 


图 3-1 展示 了 处 理 流程 。 下 面 从 订单 数据 库 开始 ， 该 数据 库 包含 哪些 客户 何 时 购买 了 哪些 产 
品 的 记录 。 















































将 订单 数据 集 转 
1 | 
用 来 进行 机 器 学 
习 的 客户 数据 集 
回答 问题 : Carlos 
应 该 致电 客户 吗 | 
< “应 该 致电 
客户 吗 


Carlos 致 电 客 户 


3 ee | 
Le 
pu 不 致电 客户 
Carlos 致 电 客 户 


图 3-1 Carlos 决定 致电 哪些 客户 的 处 理 流程 


Cn 
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Carlos 认为 ， 在 客户 决定 转 问 苋 争 对 手 之 将， 客户 订单 存在 一 种 模式 。 这 意味 着 你 需要 将 订 
单数 据 转换 为 客户 数据 。 要 做 到 这 一 点 简单 的 方式 是 将 数据 以 表格 的 形式 显示 ， 就 像 在 Excel 中 
显示 的 那样 。 每 个 订单 都 是 一 行 数据 。 如 果 有 1000 个 订单 ， 则 表 就 有 1000 行 。 如 果 这 1000 个 
订单 来 自 于 100 个 客户 ， 则 当 你 将 订单 数据 转换 为 客户 数据 时 ， 这 个 1000 行 的 表 将 变 为 100 行 
的 表 。 

如 图 3-1 的 步骤 1 所 示 : 将 订单 数据 集 转换 为 客户 数据 集 。 下 一 节 你 将 看 到 如 何 做 到 这 一 点 。 
现在 ， 计 我 们 进入 步骤 2， 这 是 本 章 的 重点 。 在 步骤 2 中 ， 你 将 回答 “Carlos 应 该 致电 客户 吗 ”。 

准备 好 客户 数据 库 后 , 用 该 数据 准备 一 个 SageMaker 笔记 本 。 准备 好 笔记 本 后 , 将 有 关 某 个 
客户 的 数据 发 送 到 SageMaker 山 点 ， 并 返回 有 关 Carlos 是 否 应 该 致电 该 客户 的 决策 。 


3.3 ”准备 数据 集 


基本 数据 集 非 党 侧 单 。 它 包含 客户 代码 、 客 户 名 称 、 订 单 日 期 和 订单 价值 等 信息 。Carlos 有 
3000 个 客户 ,平均 每 个 客户 每 周 要 下 3 笔 订 和 单 。 这 意味 着 , 在 过 去 3 个 月 里 , Carlos 共 收 到 117 000 
笔 订 单 (3000 个 客户 x 每 周 3 笔 订单 x 13 局 。 





























注意 本 书 使 用 的 数据 集 都 是 在 你 工作 中 可 能 遇 到 的 数据 集 的 基础 上 进行 的 简化 。 这 样 做 是 为 
了 突出 机 器 学 习 技 术 ， 而 不 是 将 每 一 章 的 大 部 分 篇 幅 花 在 理解 数据 上 。 


要 将 117 000 行 的 表 转 换 为 3000 行 的 表 ( 每 个 客户 一 行 ) 你 需要 按照 非 数 值 数 据 进行 分 组 ， 
并 汇总 数值 数据 。 在 表 3-1 所 示 的 数据 集中 ， 非 数值 字段 是 customer_code、customer_name 
和 date， 唯 一 的 数值 字段 是 amount。 


表 3-1 Carlos 的 客户 订单 数据 集 



































customer code customer name date amount 
393 Gibson Group 2018-08-18 264.18 
393 Gibson Group 2018-08-17 320.14 
393 Gibson Group 2018-08-16 145.95 
393 Gibson Group 2018-08-15 280.59 
840 Meadows, Carroll, and Cunningham 2018-08-18 284.12 
840 Meadows, Carroll, and Cunningham 2018-08-17 3 
840 Meadows, Carroll, and Cunningham 2018-08-16 235.95 
840 Meadows, Carroll, and Cunningham 2018-08-15 和 84 5.9 





















































按 customer_code 和 customer_name 分 组 很 容易 。 每 个 customer_code 为 一 行 。 
你 也 可 以 简单 地 使 用 每 个 客户 代码 关联 的 客户 名 称 。 在 表 3-1 中 ，393 行 和 840 行 有 两 个 不 
同 的 customer_code， 每 个 痢 有 与 之 对 应 的 公司 : Gibson Group 与 Meadows 、Carrol1l 
和 Cunningham。 
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本 章 中 按 日 期 分 组 是 数据 集 准 备 中 有 趣 的 一 部 分 。 在 与 Carlos 的 讨论 中 , 你 了 解 到 , 他 认为 
不 再 与 其 面包 店 合作 的 客户 都 有 一 种 模式 ， 如 下 所 示 。 

(1) 客户 认为 他 们 可 以 使 用 质量 较 低 的 产品 而 不 影响 生意 。 

(2) 他 们 答 试 另 一 家 面包 店 的 产品 。 

(3) 他 们 与 另 一 家 面包 店 签订 了 合同 。 

(4) 他 们 停止 使 用 Carlos 面包 店 的 产品 。 

Carlos 的 订单 模式 是 订单 数量 随 肴 时 间 的 推移 保持 稳定 , 在 客户 试用 竞争 对 手 的 产品 时 开始 
下 降 ， 接 着 与 竞争 对 手 签订 合同 后 ， 数 量 再 次 回归 稳定 。Carlos 认为 ， 客 户 的 订单 行为 应 该 反映 
出 这 种 模式 。 

在 本 章 中 ， 你 将 使 用 XGBoost 算法 来 查看 是 否 可 以 确定 哪些 客户 会 停止 使 用 Carlos 面包 店 
的 产品 。 尽 管 有 几 种 工具 可 以 帮助 准备 数据 ,但 本 章 不 会 使 用 这 些 工 具 ,， 因 为 本 章 的 重点 是 机 需 
学 习 而 非 数 据 准 备 。 不 过 下 一 章 会 展示 如 何 有 效 使 用 这 些 工具 。 在 本 章 中 , 你 将 采纳 Carlos 的 建 
以 ， 即 他 的 大 多 数 客 户 遵循 按 周 订购 的 模式 ， 因 此 你 要 按 周 来 汇总 数据 。 

你 将 对 数据 进行 两 次 转换 : 

口 标准 化 数据 ; 

口 计算 周 与 周 之 间 的 变化 值 。 

第 一 次 转换 是 计算 每 周 消费 占 周平 均 消 费 的 百分比 。 这 会 标准 化 所 有 数据 , 这 样 你 看 到 的 就 
是 相对 于 平均 销售 额 的 每 周 变化 值 ， 而 不 是 具体 金额 。 第 二 次 转换 展示 周 与 周 之 间 的 变化 值 。 这 
么 做 是 因为 你 想 要 机 妖 学 习 算 法 获取 到 每 周 变化 的 模式 以 及 同一 时 间 段 的 相对 值 。 

注意 , 本章 将 进行 如 上 两 次 转换 操作 , 但 后 续 草 万 将 更 多 地 介绍 如 何 转换 数据 。 因 为 本 草 的 
重点 是 学 习 XGBoost 和 机 各 学 习 ， 所 以 本 书 将 百 接 提供 转换 后 的 数据 ， 这 样 你 就 不 必 有 自己 进行 
转换 。 


3.3.1 转换 操作 1: 标准 化 数据 


我 们 将 对 数据 集 执 行 以 下 操作 。 

(1) 取 Carlos 的 每 个 客户 一 年 中 的 消费 总 额 ， 将 其 命名 为 total_spend。 

(2) 用 total_spend 除 以 52,， 得 出 每 周 的 平均 消费 。 

(3) 分 别 计算 每 周 总 消费 除 以 每 周平 均 消费 ， 得 出 每 周 消费 占 平 均 消 费 的 百分比 。 
(4) 为 每 周 创建 一 列 。 

表 3-2 展示 了 该 转换 的 结 


表 3-2 ”将 数据 标准 化 后 按 周 分 组 的 客户 数据 集 






























































customer customer _ ee week _ week _ week _ last week 


code name minus 4 minus 3 minus 2 
393 Gibson Group 6013 .96 se 3 .8 O43 2.09 
840 Meadows, 5762.40 0.52 Td 0.87 1.84 





Carroll, and 
Cunningham 
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3.3.2 ”转换 操作 2: 计算 周 与 周 之 间 的 变化 


如 表 3-3 所 示 ， 对 于 week_minus_3 列 到 last_week 列 的 每 一 周 ， 均 减 去 前 一 周 的 值 ， 并 
称 之 为 两 周 之 间 的 增 量 。 例如 , 在 week_minus_3 中 , Gibson Group 的 销售 额 是 平均 销售 额 的 1.18 
音 ， 而 在 week_minus_4 中 , 该 周 的 销售 额 是 平均 销售 额 的 1.13 信 。 这 意味 着 从 week_minus_4 
到 week_minus_3， 他 们 每 周 销售 额 增长 了 正常 销售 额 的 5%。 这 是 week_minus_3 和 week_ 
minus_4 之 间 的 增 量 ， 记 录 在 4-3_qdelta 列 中 ， 值 为 0.05。 


表 3-3 按 周 分 组 ， 展 示 每 周 变化 的 客户 数据 集 





customer customer total week _ week _ week _ lJast __ 4-3 3-2 2-1 
code Dame sales minus 4 minus 3 minus 2 week delta delta delta 
393 Gibson 6013.96 3 1.18 0 .43 2509 0.05 -0.75 1.66 

GIrOoup 
840 Meadows, Carroll, 5762.40 加 二 5 之 1 .43 0 .87 1.84 0.91 -0.56 Q3.97 





and Cunningham 


接 下 来 的 一 周 Gibson Group 的 销售 情况 非常 糟糕 销售 和 额 下 降 了 周平 均 销 售 额 的 75%， 可 
以 看 到 3-2_qdelta 列 中 的 值 为 -0.75。 不 过 ， 他 们 的 销售 额 在 上 周 有 所 反弹 ， 达 到 了 周平 均 销 
售 额 的 2.09 倍 ， 可 以 看 到 2-1_aelta 列 中 的 值 为 1.66。 

现在 已 准备 好 了 数据 ， 下 面 继续 研究 机 需 学 习 应 用 程序 。 首 先 来 看 看 XGBoost 的 工作 原理 。 























3.4 XGBoost 基础 


第 2 章 使 用 XGBoost 帮助 Karen 决定 将 订单 发 送 给 哪个 审批 人 ,但 没有 详细 介绍 XGBoost 
的 工作 原理 ， 下 面 来 看 看 这 个 算法 。 





3.4.1 XGBoost 的 工作 原理 


可 以 从 多 个 层次 理解 XGBoost。 理解 深度 取决 于 需求。 一 个 着 眼 于 全 局 的 人 会 对 宏观 的 答案 
感到 满意 ， 一 个 着 眼 于 细节 的 人 则 需要 详细 的 解释 。Carlos 和 Karen 都 需要 充分 了 解 模型 ， 以 回 
他 们 的 管理 者 说 明 他 们 知道 发 生 了 什么 。 他 们 需要 了 人 解 多 深 ,实际 上 取决 于 其 管理 者 。 

以 理解 的 最 高 层次 来 说 ， 在 第 1 章 的 圆圈 示例 中 ， 如 图 3-2 所 示 ， 我们 使 用 两 种 方法 将 深 色 
圆圈 和 浅 色 圆圈 分 开 。 

口 深 色 圆 圈 出 现在 右 侧 奖励 函数 ， 出 现在 左 侧 则 惩 昼 函数 。 

口 浅 色 圆圈 出 现在 左 侧 奖励 函数 ， 出 现在 右 侧 则 惩 昼 函数 。 
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函数 因 保 持 深 色 圆 
圈 在 中 间 及 右 侧 受 
到 奖励 





函数 还 因 保持 浅 色 
圆圈 在 左 侧 受 到 
奖励 





图 3-2 识别 相似 元 系 集合 的 机 带 学 习 函 数 ( 与 第 1 草 的 网 一 致 ) 


这 可 以 看 成 一 个 集成 的 机 带 学 习 模 型 ,该 模型 在 学 习 时 会 使 用 多 种 方法 。 从 某 种 角度 上 来 看 ， 
XGBoost 也 是 一 个 集成 的 机 需 学 习 模 型 ， 这 意味 着 它 可 以 使 用 多 种 不 同 的 方法 来 提高 其 学 习 效 
率 。 下 面 来 进一步 解释 一 下 。 

XGBoost 代表 极限 梯度 提升 ( Extreme Gradient Boosting )。 我 们 将 名 称 分 为 两 部 分 : 

口 梯度 提升 

口 极限 

梯度 提升 是 一 种 使 用 不 同学 习 带 来 优化 孔 数 的 技术 ,可 以 想象 这 就 像 冰 球 运动 员 的 球 杆 在 冰 
上 操纵 冰球 ,他们 没有 将 冰球 笔直 地 推 癌 前 方 ， 而 是 用 较 小 的 修正 量 将 冰球 引 到 正确 的 方向 。 梯 
度 提升 采用 类 似 的 方法 。 
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名 称 中 的 极限 是 指 XGBoost 具有 许多 其 他 特性 ， 这 些 特 性 使 模型 特别 精确 。 例 如 ， 该 模型 
会 日 动 处 理 数 据 正则 化 ， 因 此 你 不 会 被 数据 集中 差异 较 大 的 值 所 误导 。 
最 后 ， 理 碍 德 基于 对 该 算法 更 次 层次 的 理解 ， 给 出 了 更 详细 的 解释 。 














理 查 德 对 XGBoost 的 解释 

XGBoost 是 功能 极其 强大 的 机 器 学 习 模 型 。 首 先 ， 它 支持 多 种 形式 的 正则 化 。 这 很 重要 ， 
因为 已 知 的 梯度 提升 算法 存在 过 拟 合 的 潜在 问题 。 过 拟 合 模型 与 训练 数据 的 特征 紧密 相关 ,很 
难 推 广 到 未 知 的 数据 。 随 着 训练 XGBoost 模型 的 迭代 次 数 增多 ， 当 模型 的 验证 准确 性 开始 下 
降 时 ， 我们 可 以 看 到 这 一 点 。 

除了 通过 提前 停止 来 限制 迭代 次 数 外 ，XGBoost 还 通过 行列 采样 以 及 eta、gamma、 
lambda 和 alpha 等 参数 来 控制 过 拟 合 。 这 会 惩罚 模型 的 某 些 方面 ， 这 些 方面 往往 会 使 模型 
过 于 拟 合 训练 数据 。 

XGBoost 的 另 一 个 特性 是 在 所 有 可 用 内 核 上 并 行 地 构建 每 棵 树 。 尽 管 梯 度 提 升 的 每 个 步骤 
都 需要 顺序 执行 ， 但 XGBoost 使 用 所 有 可 用 的 内 核 来 构建 每 棵 树 ， 这 与 其 他 算法 相 比 具有 很 
大 的 优势 ， 尤其 在 解决 较 复 杂 的 问题 的 时 候 。 

XGBoost 还 支持 核 外 计算 。 当 数据 无 法 装 入 内 存 时 ，XGBoost 会 将 数据 划分 为 块 并 以 压缩 
形式 存储 在 磁盘 上 。 它 甚 至 支持 这 些 块 跨 磁盘 分 片 。 接 着 这 些 块 在 加 载 到 内 存 时 ,由 独立 的 线 
程 动态 地 解压 缩 。 

XGBoost 已 扩展 为 支持 大 规模 并 行 处 理 大 数据 框架 ， 如 Spark、Flink 和 Hadoop。 这 意味 
着 它 可 以 快速 构建 基于 数 十 亿 行 和 数 百 万 特征 的 数据 的 超大 型 复杂 模型 。 

XGBoost 具有 稀 玻 感知 功能 , 这 意味 着 它 无 须 输 入 就 可 以 处 理 缺失 值 , 我 们 认为 这 理 所 当 
然 , 但 许多 机 器 学 习 算 法 要 求 所 有 样本 的 所 有 属性 都 且 有 值 。 在 这 种 情况 下 ,我 们 不 得 不 估算 
一 个 合适 的 值 。 要 做 到 这 一 点 并 不 是 很 容易 ， 这 往往 会 以 某 种 方式 改变 模型 的 结果 。 此 外 ， 
XGBoost 处 理 缺 失 值 的 方式 非常 高 效 : 性 能 与 存在 值 的 数量 成 正比 ， 与 缺失 值 的 数量 无 关 。 

最 后 ，XGBoost 实现 了 一 种 用 于 优化 目标 的 高 效 算法 : 牛顿 提升 法 。 这 憾 的 是 ,该 算法 的 
解释 超出 了 本 书 范围 。: 


你 可 以 在 Amazon 网 站 上 读 到 更 多 有 关 XGBoost 的 信息 。 


3.4.2 ”机 器 学 习 模 型 如 何 确 定 函数 的 AUC 的 好 坏 


XGBoost 善于 学 习 , 但 学 习 意 味 着 什么 呢 ” 这 仪 意味 着 该 模型 受到 更 少 的 惩罚 和 得 到 更 多 的 
奖励 。 机 需 学 习 模 型 如 何 知道 它 应 该 受到 惩罚 还 是 得 到 奖励 呢 ? 曲线 下 面积 (AUC ) 是 机 需 学 习 
中 铝 用 的 度量 标准 , 是 奖励 或 惩罚 因数 的 依据 。 曲 线 是 “函数 在 曲线 下 占据 的 面积 更 大 时 得 到 奖 
励 ” 的 准则 。 当 AUC 减 少时 ， 隆 数 则 受到 惩罚 。 

为 了 了 解 AUC 的 工作 原理 ,假设 你 是 肾 华 度假 村 里 的 一 位 名 人 。 你 已 习惯 了 别人 对 你 的 悉 
心照 顾 ， 并 且 乐 在 其 中 。 你 的 每 个 奇 思 妙 想 都 有 工作 人 员 负 责 ， 其 中 一 个 是 遮阳 伞 的 调节 工作 ， 
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我 们 姑且 把 他 叫 作 Function 吧 。 当 Function 没有 调整 好 伞 的 角度 ， 你 没 被 伴 萌 滤 住 时 ， 你 会 责 
怪 他 。 当 他 始终 计 你 处 在 们 其 下 时 ， 你 会 给 他 小 费 。 机 需 学 习 模 型 就 是 这 样 工作 的 : AUC 增加 
就 奖励 Function，AUC 减少 就 惩罚 他 。 下 面 让 理 查 德 寓 来 更 多 技术 性 的 解释 。 


理 查 德 对 AUC 的 解释 

当 告 诉 XGBoost 目标 为 binary:logistic 时 ， 我 们 所 要 的 不 是 正 负 标签 的 预测 ， 而 是 获得 正 
标签 的 可 能 性 。 结 果 会 得 到 一 个 0~1 范围 内 的 连续 值 ， 然 后 由 我 们 来 决定 得 到 正 标 签 预测 结果 
的 概率 。 

选择 0.5( 50% ) 作为 国人 值 是 说 得 通 的 ， 但 在 其 他 时 候 ， 我 们 可 能 布 望 在 得 到 正 标签 预测 
结果 前 非常 确定 预测 是 正确 的 。 通 常 ,在 与 正 标 签 相 关 的 决策 成 本 很 高 时 , 我们 会 这 么 做 。 但 
在 其 他 情况 下 ， 错 过 正 标 签 的 代价 可 能 更 严重 ,这样 选择 一 个 远 低 于 0.5 的 阅 值 也 是 合理 的 。 

下 面 的 图 轴 为 真 阳 性 率 (范围 在 0~1 )，z 轴 为 假 阳 性 率 ( 范围 在 0~1 )。 

口 真 阳性 率 ( true positive rate ) 是 指 被 模型 识别 为 正 样本 的 正 样本 占 所 有 正 样 本 的 比例 。 

口 假 阳性 率 ( false positive rate ) 是 指 被 模型 识别 为 负 样 本 的 正 样 本 点 所 有 负 样 本 的 比例 。 

该 图 被 称 为 ROC 曲 线 (ROC curve ) "。 当 使 用 AUC 作 为 评估 指标 时 ， 我 们 告诉 XGBoost 
通过 最 大 化 ROC 曲 线 下 的 面积 来 优化 模型 ,以 便 综 合 评价 模型 在 0~1 范围 内 的 所 有 阅 值 水 平 上 
的 表现 ， 从 而 得 到 最 佳 的 结果 。 


基于 本 章 中 使 用 的 数据 
集 的 AUC 接 近 于 1 


真 阳 性 率 





0 0 0.4 0.6 0.8 1.0 
假 阳性 率 


AUC 显示 了 真 阳 性 值 和 假 阳 性 值 














GO ROC 代表 受 试 者 操作 特征 (Receiver Operator Characteristic )。 它 最 初 是 由 工程 师 在 第 二 次 世界 大 战 期 间 发 明 ， 用 
于 检测 战斗 中 的 敌对 物体 ， 这 个 名 称 就 一 直 沿 用 到 了 现在 。 
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无 论 选 择 什么 闷 值 都 会 产生 TP ( 真 阳性 ) 值 和 FP( 假 阳性 ) 值 。 如 果 选 择 一 个 较 低 的 冰 
值 ( 例 如 0.1 ) 来 捕获 大 多 数 或 全 部 的 真 阳 性 值 ( 正 样本 )， 你 就 会 在 不 经 意 间 将 许多 负 样 本 预 
测 为 正 样 本 。 无 论 阔 值 取 何 值 ， 都 会 在 这 两 种 互相 竞争 的 模型 精度 度量 之 间 进 行 权 衡 。 

在 曲线 远 高 于 对 角 线 时 ( 如 图 所 示 )，AUC 的 值 接近 1。 一 个 在 所 有 阅 值 水 平 上 都 使 真 阳 
性 率 与 假 阳性 率 相 等 的 模型 ，AUC 为 0.5， 其 曲线 与 图 中 对 角 线 刚好 重合 。 


3.5 准备 构建 模型 


现在 你 对 XGBoost 的 工作 原理 有 了 更 深入 的 理解 ， 可 以 在 SageMaker 上 设置 另 一 个 笔记 本 
并 进行 决策 。 与 第 2 章 一 样 ， 你 将 执行 以 下 操作 。 

口 将 数据 集 上 传 到 S3。 

口 在 SageMaker 上 设置 笔记 本 。 

口 上传 初 始 笔记 本 。 

口 基于 数据 运行 。 

在 此 过 程 中 ， 我 们 将 详细 介绍 第 2 草 中 提 到 的 一 些 细 市。 








提示 ”如果 你 想 跳 过 前 面 直接 阅读 本 章 ， 可 能 会 需要 参考 以 下 附录 ， 它 们 向 你 展示 了 如 何 执 行 
以 下 操作 。 
口 附录 A: 注册 AWS，。 
口 附录 B: 设置 AWS 的 文件 存储 服务 S3。 
口 附录 C: 设置 SageMaker。 


3.5.1 将 数据 集 上 传 到 S3 


要 设置 本 半 的 数据 集 , 你 需要 执行 与 附录 B 中 相同 的 步 又 。 不 过 无 须 设置 为 一 个 存储 桶 ,你 
可 以 用 之 前 创建 的 那个 存储 桶 。 在 示例 中 ， 我 们 将 存储 桶 命名 为 mlforbusiness ,但 你 的 存储 桶 
名 称 要 有 别 于 它 。 进 入 S3 账户 后 ， 你 会 看 见 如 图 3-3 所 示 的 内 容 。 





| Amazon S3 OI Discover the new console 


中 Create bucket 1 Buckets 0 1 Regions 2 


Bucket name 单 击 存储 数据 集 Access @ Region Date created 
的 存储 桶 
US East (N. Oct 29, 2018 


hud -mlforbusi ic * :49: 
七 hudgeon-mlforbusiness Not public viiia) 7:49:37 AM 
GMT+1100 





图 3-3 ”查看 S3 的 文件 存储 桶 列表 
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单 击 此 存储 桶 查看 你 在 上 一 章 中 创建 的 ch02 文件 夹 。 在 本 章 中 , 你 将 创建 一 个 名 为 ch03 的 
新 文件 夹 。 可 以 单 击 Create Folder， 按 照 提 示 创 建 一 个 新 的 文件 夹 。 

创建 文件 夹 后 ,你 将 返回 到 存储 桶 的 文件 夹 列表 。 在 那里 , 你 会 看 到 一 个 名 为 ch03 的 文件 夹 。 

现在 已 经 在 存储 桶 中 设置 好 了 ch03 文件 来 ， 你 可 以 上 传 数 据 文件 并 开始 在 SageMaker 中 设 
置 决 策 模 型 。 

然后 单 击 Upload 按钮 将 CSV 文件 上 传 到 ch03 文件 来。 下 面 可 以 准备 设置 笔记 本 实例 了 。 








3.5.2 ”在 SageMaker 上 设置 笔记 本 


就 像 第 2 章 一 样 ， 你 将 在 SageMaker 上 设置 笔记 本 。 在 本 草 中 ， 这 个 过 程 要 快 得 多 。 这 是 
为 与 第 2 章 不 同 , 你 现在 已 经 设置 了 一 个 笔记 本 实例 并 且 可 以 运行 , 只 需 运 行 并 上 传 我 们 为 本 昔 
准备 的 Jupyter 笔记 本 即 可 。( 如 采 你 跳 过 了 第 2 草 ， 请 按照 附录 C 中 有 关 如 何 设 置 SageMaker 
的 说 明 进 行 操作 。) 

当 你 进入 SageMaker 界面 时 ， 会 看 到 你 的 笔记 本 实例 。 你 为 第 2 草创 建 的 笔记 本 实例 (或 按 
照 附录 C 的 说 明 刚 刚 创建 的 笔记 本 实例 ) 会 显示 Open 或 Start。 如 果 显 示 Start， 请 单 击 Start 链 
接 ， 然 后 等 竺 几 分 钟 ， 以 便 SageMaker 启动。 如 末 屏 右 显 示 Open Jupyter， 单 击 该 链接 以 打开 你 
的 笔记 本 列表 。 

打开 后 ， 单 击 New， 选 择 下 拉 列 表 底 部 的 Folder， 为 第 3 章 创 建 一 个 新 的 文件 夹 ， 如 图 3-4 
所 示 。 这 将 创建 一 个 名 为 Untitled Folder 的 新 文件 夹 。 


























J U pyte Tr Open JupyterLab Quit 


1. 选择 New 
Files Running Clusters Examples Conda ea 


Select items to perform actions on them. Upload |New=| 人 


D0 ~ Mm/ 人 


R (Beta) 

口 DD ch02 Sparkmagic (PySpark) 
器 口 lost+found conda_mxnet_p36 
DD DO sample-notebooks conda_pythonz 
conda_python3 
conda_pytorch_p27 
conda_pytorch_p36 
conda tensorflow_p27 


conda tensorflow_p36 


Text File 

1 拓 半 从 
Folder 奖 一 一 2. 选择 
Folder 


Terminal 





图 3-4 在 SageMaker 中 创建 一 个 新 文件 夹 
当 你 勾 选 Untitled Folder 旁边 的 复 选 框 时 ， 会 出 现 Rename 按钮 。 单 击 它 ， 然 后 将 文件 夹 名 
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称 改 为 ch03， 如 图 3-5 所 示 。 








JU pyte 『 Open JupyterLab Quit 
Files Running Clusters SageMaker 
2. 选择 Rename Move | Upload Newv 疙 
Rename 
四 1 ~ mm/ Last Modified File size 
0D OD ch02 an hour ago 
Di :Oeh03 7 months ago 
口 DD ch04 2 months ago 
器 虽 ch05 5 months ago 
DD, © ch06 a month ago 
DD ch07 22 days ago 
器 DD ch08 2 months ago 
口 DD deepar electricity 2018-12-27 5 months ago 
DD DD deepar _ synthetic 2018-12-27 6 months ago 
DD OD lostt+found a year ago 
DD DD sample-notebooks a year ago 
选择 Untitled Folder in a few seconds 
复 选 框 


图 3-5” 重 命名 SageMaker 上 的 文件 夹 


单 击 ch03 文件 来 ， 你 会 看 到 一 个 空 日 的 笔记 本 列表 。 正 如 已 准备 好 上 传 到 S3 的 CSV 数据 
(churn_ data.csv ) 一 样 ， 我 们 也 已 准备 好 了 现在 要 使 用 的 Jupyter 笔记 本 。 
单 击 Upload 将 customer _churn.ipynb 笔记 本 上 传 到 ch03 文件 来， 如 图 3-6 所 示 。 


st | 2 
一 JpPyter 单 击 Upload 上 传 笔记 本 
Fies Fynrinay Clusters Sanohaker Exampleas Cr ~、 


Select Hems to Perform actions on ihem, Upioadg New= 六 





[lo = /I ch03 Name 中 Lst htcwdifisd 


口 Soonds yo 


The notobook lls B dmpty 





图 3-6 将 笔记 本 上 传 到 SageMaker 
文件 上 传 后 ， 你 会 在 列表 中 看 到 笔记 本 。 单 击 将 其 打开 。 现 在 ,就 像 在 第 2 草 一 样 ， 你 距离 
能 够 运行 机 器 学 习 模 型 仪 几 步 之 还。 
3.6 构建 模型 


与 第 2 章 一 样 ， 你 将 分 六 个 部 分 学 习 代码 : 


口 加 载 并 检查 数据 ; 
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口 将 数据 转换 为 正确 的 格式 ; 

口 创建 训练 集 、 验 证 集 和 测试 集 ; 

口 训练 机 器 学 习 模 型 ; 

口 部 署 机 需 学 习 模 型 ; 

口 测试 机 器 学 习 模 型 并 用 模型 进行 决策 。 


3.6.1 第 一 部 分 : 加 载 并 检查 数据 


和 首先， 你 需要 告诉 SageMaker 数据 存放 的 位 置 。 更 新 笔记 本 的 第 一 个 单元 格 中 的 代码 以 指 回 
你 的 S3 文件 存储 桶 和 文件 夹 ， 如 代码 清单 3-1 所 示 。 如 果 你 调用 了 S3 文件 夹 ch03 ,但 未 重 命名 
churn_data.csv 文件 ， 那 么 只 需 将 数据 存储 桶 的 名 称 更 新 为 数据 上 传 到 的 $3 存储 桶 的 名 称 即 可 。 
完成 此 操作 后 ， 实 际 上 就 可 以 运行 整个 笔记 本 了 。 就 像 在 第 2 草 中 所 做 的 那样 ， 要 运行 笔记 本 ， 
请 在 Jupyter 笔记 本 顶部 的 工具 栏 中 单 击 Cell， 然 后 再 单 击 Run All。 


代码 清单 3-1 设置 笔记 本 和 存储 数据 

















人 存储 数据 的 S3 存储 
末 存储 桶 子 虽 戏 坟 HH 了 ll 
data _ bucket = 'mlforbusiness _ 
subfolder = 'ch03' 桶 的 子 文件 夹 
dataset = 'churn aqata.CSV' 用 来 训练 和 测试 
模型 的 数据 集 





运行 笔记 本 时 ,SageMaker 会 加 载 数据 , 训练 模型 , 设置 器 点 并 根据 测试 数据 生成 决策 结 
SageMaker 完成 这 些 操 作 大 约 需 要 10 分钟， 因此 在 这 段 时 间 ， 你 可 以 去 喝 杯 咖啡 或 茶 。 

当 你 哟 完 热 腾腾 的 饮料 回来 时 ,将 深 动 条 拖 到 底部 ,应 该 可 以 看 到 基于 测试 数据 的 决策 结 
但 在 开始 之 前 ， 我 们 先 来 研究 一 下 笔记 本 。 

回 到 笔记 本 的 顶部 ， 可 以 看 到 负责 导入 在 该 笔记 本 里 用 到 的 Python 库 和 模块 的 代码 单元 格 。 
后 续 章 将 进一步 介绍 这 些 内 容 。 现 在 ,证 我 们 来 看 看 下 一 个 代码 单元 格 。 如 果 你 没有 在 笔记 本 
中 单 击 Run All, 请 单 击 该 单元 格 , 然后 按 Ctrl+Enter 组 合 键 来 运行 单元 格 中 的 代码 ,如 代码 清单 
3-1 所 示 。 

下 面 来 看 下 一 个 代码 单元 格 , 你 要 导入 SageMaker 用 于 准备 数据 、 训 练 机 器 学 习 模型 和 设置 
端点 的 所 有 Python 库 和 模块 。 

如 第 2 章 所 述 , pandas 是 数据 科学 中 最 常用 的 Python 库 之 一 。 在 代码 清单 3-2 中 展示 的 代码 
单元 格 中 , 你 将 以 pa 的 别名 导入 pandas。 单元 格 中 看 到 pa 字样 时 ,说 明正 在 使 用 pandas 负数 。 
你 还 导入 了 以 下 内 容 。 

口 boto3 一 一 帮助 你 在 Python 中 使 用 AWS 的 Amazon Python 库 。 

口 sagemaker 一 一 用 于 与 SageMaker 交互 的 Amazon 的 Python 模块 。 

口 s3fs 一 一 一 个 让 boto3 更 易于 管理 S3 上 的 文件 的 模块 。 

口 sklearn.metrics 一 一 一 个 新 的 导入 模块 (第 2 章 没 有 用 过 )， 该 模块 可 以 基于 机 融 学 习 模 

型 生成 汇总 报告 。 
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代码 清单 3-2 导入 模块 


导入 Python 库 
d 已 
pandas 导入 AWS 库 导入 s3fs 模块 ， 


import pandas as pd boto3 








import boto3 0 的 
. 合 
导入 MO sagemaker 
SageMaker i1mport s3fs 
全 SK learnmoder Select lon \ 仅 导 入 sklearn 库 中 的 
import train test_ split ET eet Sp Lt 
import sklearn.metrics as metrics 模块 本 
role = sagemaker.get execution role() 导入 sklearn 库 
53 .三 83f80903Filedyetem(anon=ralse) 中 的 度量 模块 
在 SageMaker 中 
创建 一 个 角色 与 S3 建立 连接 


在 代码 清单 3-3 中 的 代码 单元 格 中 , 我 们 使 用 了 pandas 的 read_csv 函数 来 读 取 数据 , 并 使 
用 head 函数 展示 前 5 行 。 这 是 每 个 草 方 中 要 做 的 第 一 件 事 情 ， 这 样 你 束 能 查看 数据 ， 并 了 解数 
据 。 要 加 载 并 查看 数据 ， 请 单 击 单元 格 选 中 它 ， 然 后 按 Ctrl+Enter 组 合 键 运行 代码 。 


代码 清单 3-3 ”加 载 并 查看 数据 
df = pd.read csyvl( 读 取 代码 清单 3-1 中 S3 

f's3://{data bucket}/{subfolder}/{dataset}') 数据 集 churn_data.csv 

Qt .heada( ) 











展示 DataFrame 
的 前 5 行 数 据 

可 以 看 到 每 一 行 数据 表示 一 个 客户 ， 对 应 表 3-3 的 数据 格式 。 表 3-4 中 的 第 一 列表 示 客 户 是 
否 流失 。 如 果 客 户 流 失 了 ， 第 一 列 的 值 为 1; 如 采 仍 保持 合作 关系 ， 则 该 列 值 为 0。 请 注意 ， 这 
些 数据 行 仅 用 于 举例 说 明 ， 你 看 到 的 数据 行 可 能 不 同 。 


表 3-4 Excel 中 展示 的 Carlos 的 客户 数据 集 


customer _ total week _ week week last 4-3 3-2 2-1 

















churned id 


code 人 spend minus 4 minus 3 minus 2 week delta delta delta 
0 1 1826 Hof fman, 68567.34 0.81 0.02 0.74 TA45. Ow 0 72 =0 71 
Martinez, 
and Chandler 
0 2 2 Lee Martin T4335.;327 1.87 T1302 1.29 1.19 0.85 -0.27 0.10 





and Escobar 
可 以 看 到 前 $ 个 客户 没有 流失 ， 这 符合 你 的 期 望 ， 因 为 Carlos 没有 失去 那么 多 的 客户 。 
要 查看 数据 集 的 行 数 ， 请 运行 代码 清单 3-4 中 所 示 的 pandas 库 的 shape 限 数 。 要 查看 数据 
集中 流失 的 客户 数量 ， 运 行 pandas 库 的 value_counts 限 数 即 可 。 
代码 清单 3-4 数据 集中 流失 的 客户 数量 
print (f'Number of rows in dataset: {df.shape[0]}') a 展示 数据 集 的 总 行 数 


print (df['churned'] .value counts()) 
| 展示 流失 的 客户 行 数 与 


没有 流失 的 客户 行 数 
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可 以 看 到 ， 在 2999 行 数 据 中 ， 有 166 个 客户 流失 了 。 这 表示 每 周 的 流失 率 约 为 5%， 高 于 
Carlos 的 流失 率 : Carlos 的 真实 客户 流失 率 大 约 为 每 周 0.5% (或 者 说 每 周 大 约 15 个 客户 )。 

在 这 个 例子 中 , 我 们 对 数据 做 了 些 处 理 ， 以 将 客户 流失 率 提高 到 该 水 平 。 该 数据 集 实 际 上 包 
含 了 过 去 3 个 月 中 流失 的 客户 , 并 从 同一 时 间 有 段 的 非 流 失 客 户 中 随机 选择 了 一 批 客户 ,从 而 使 客 
户 总 量 达 到 了 2999 ( Carlos 拥有 的 实际 客户 数量 )。 之 所 以 这 么 做 ， 是 因为 我 们 将 在 后 续 章 节 介 
绍 如 何 处 理 极其 罕见 的 事件 ， 在 本 章 中 ， 我 们 希望 使 用 与 第 2 音 中 使 用 的 类 似 的 工具 集 。 

在 本 章 中 , 我 们 采用 的 数据 处 理 方法 存在 风险 。 如 果 过 去 3 个 月 内 流失 的 客户 的 订购 模式 有 
所 不 同 , 那么 我 们 的 结果 可 能 无 效 。 在 与 Carlos 的 讨论 中 , 他 认为 ， 随 着 时 间 的 流逝 ， 流 失 客 户 
的 模式 和 正常 客户 的 模式 会 保持 稳定 ， 因 此 我 们 对 这 种 方式 充满 信心 。 

另 一 点 要 注意 的 是 ， 如 果 我 们 要 写 学 术 论 文 , 这 种 方法 可 能 不 太 容 易 被 接受 。 在 使 用 自己 公 
司 的 数据 时 ,你 会 学 到 的 一 点 是 , 很 难 获得 想 要 的 一 切 。 你 必须 不 断 评估 基于 现 有 数据 能 否 做 出 
正确 的 决策 。 


3.6.2 第 二 部 分 : 将 数据 转换 为 正确 的 格式 


现在 你 可 以 在 笔记 本 中 看 到 数据 集 了 ， 那 就 可 以 开始 了 。XGBoost 只 能 接受 数字 作为 输入 ， 
此 我 们 需要 删除 分 类 型 数据 或 对 其 进行 编码 。 

编码 数据 意味 看 你 将 数据 集中 每 个 不 同 值 设置 为 一 列 ， 然 后 在 包含 该 列 值 的 行 中 设置 1， 其 
他 行 则 设置 0。 这 对 Karen 数据 集中 的 产品 将 果 很 好 ， 但 对 Carlos 的 数据 集 无 济 于 事 。 这 是 因为 
分 类 型 数据 ( customer_name、customer_code 和 iq ) 是 唯一 的 ， 它 们 在 数据 集中 仅 出 现 一 
次 。 将 它们 转换 成 列 也 不 会 改善 模型 。 

在 这 种 情况 下 ,最 好 的 办 法 也 是 最 简单 的 办 法 是 删除 分 类 型 数据 。 要 删除 数据 , 需 使 用 pandas 
的 drop 哺 数 ， 然 后 再 用 head 六 数 展示 数据 集 的 前 5 行 。 使 用 axis = 1 表示 要 删除 pandas 
DataFrame 中 的 列 而 不 是 行 ， 如 代码 清单 3-5 所 示 。 


代码 清单 3-5 ”删除 分 类 型 数据 






















































































encoded data = df.dropl( 通过 调用 af DataFrame 上 
['ijd', 'customer_ code', 'co_ name'], 的 drop 国 数 删除 分 类 型 列 
axlis=1) 


encoded data.head() ES 
展示 DataFrame 


的 前 5 行 
删除 分 类 型 列 后 ， 展 示 不 包含 分 类 型 数据 的 数据 集 ， 如 表 3-5 所 示 。 
表 3-5 ”转换 后 不 包含 分 类 型 数据 的 数据 集 


duned. TAUal. a veek. wee Tagt -= 42 deita ‘3-2 deita ‘2-1.d81ta 
spend minus 4 minus 3 minus 2 week 
0 5 i 0.02 0.74 1.45 0 .79 二 





0 714335.27 1].87 1 .02 下 二 分 号 下 9 0.85 -0.27 0.10 
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3.6.3 ”第 三 部 分 : 创建 训练 集 、 验 证 集 和 测试 集 


现在 数据 已 可 以 为 XGBoost 所 用 了 ， 你 可 以 像 第 2 草 中 那样 将 数据 分 为 测试 集 、 验 证 集 和 
训练 集 。 与 正在 使 用 的 方法 的 一 个 重要 区 别 是 ， 我 们 在 数据 切 分 时 使 用 了 stratify 参数 。 

对 于 要 预测 的 目标 变量 相对 较 少 的 数据 集 来 说 ，stratify 参数 特别 有 用 。 该 参数 的 工作 原 
理 是 在 构建 机 带 学 习 模型 时 对 数据 进行 “ 洗 牌 ”"”， 并 确保 训练 集 、 验 证 集 和 测试 集 包 含 相 似 的 目 
标 变 量 比 例 。 这 可 确保 模型 不 会 因为 数据 集 采 用 了 不 具 代 表 性 的 切 分 方法 而 出 现 偏差 。 

第 2 章 简 单 介绍 了 这 段 代 码 ， 这 里 将 进行 更 深入 的 介绍 ， 并 向 你 展示 如 何 使 用 stratify， 
如 代码 清单 3-6 所 示 。 你 可 以 从 数据 集中 创建 训练 样本 和 测试 样本 ， 其 中 70% 分 配给 训练 数据 ， 
30% 分 配给 测试 样本 和 验证 样本 。stratify 参数 告诉 孔 数 使 用 y 值 对 数据 进行 分 层 ， 以 便 随 机 
样本 能 根据 y 值 的 不 同比 例 进行 平衡 。 

你 可 能 会 注意 到 ， 用 于 切 分 数据 集 的 代码 与 第 2 章 中 使 用 的 代码 略 有 不 同 。 由 于 使 用 的 是 
stratify 参数 ， 因 此 必须 显 式 声 明日 标 列 ( 在 本 例 中 使 用 churned )。stratify 图 数 会 返回 
一 些 你 不 关心 的 附加 值 。 在 y = test_angd_val_gdata 行 (以 val_qf 开头 ) 中 的 下 面 线 只 是 
变量 的 占 位 符 。 如 有 果 这 看 起 来 有 些 难 以 理解 ， 请 不 要 担心 。 你 无 须 理 解 这 部 分 代码 即 可 训练 、 验 
证 和 测试 模型 。 

接 下 来 将 测试 数据 和 验证 数据 分 开 ， 其 中 2/3 分 配给 验证 集 ，1/3 分 配给 测试 集 ， 如 代码 清 
单 3-6 所 示 。 在 整个 数据 集中 ，70% 的 数据 分 配给 训练 集 ，20% 的 数据 分 配给 验证 集 ，10% 的 数 
据 分 配给 测试 集 。 


代码 清单 3-6 ”创建 训练 集 、 验 证 集 和 测试 集 
































y = encoded datal'churned'] 

0 0 人 设置 用 来 切 分 数 
encoded_data, | 据 的 目标 变量 
y, 从 数据 集 af 中 生成 训练 样本 和 测 人 
test_ size=0.3, 试 样本 ,random_state 确保 了 每 
sta lty a 次 以 相同 的 方式 切 分 数据 


random state=0) 


y = test and val datal'churned'l| 
val _ df, test df, 
testing_data, 


tral test. split" 


YY ~ Nt Se 
test size=0.333, 将 测试 数据 和 验证 
stratify=y, 数据 切 分 为 验证 集 
random state=0) 和 测试 集 














print (train df.shape, val_df.shape, test_df.shape,) 

BELAE ty 

print ('Train') 

print (train df['churned'] .value counts()) value counts 函数 展示 了 训练 集 .验证 
ee 攻 集 和 测试 集中 未 流失 (用 0 表示 ) 和 已 流 
ee 失 《〈 用 1 表示 ) 的 客户 数量 

Print (al aqf[' churnead' |].value_counts () ) 
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print() 
print ("Test" ) 
print (test_df['churned'] .value counts()) 


就 像 第 2 章 中 做 的 那样 ， 你 将 3 个 数据 集 转换 为 CSV 并 将 数据 保存 到 S3。 代 码 清 单 3-7 创 
建 了 要 与 原始 churn data.csy 文件 保存 到 同一 S3 文件 夹 中 的 数据 集 。 


代码 清单 3-7 ”将 数据 集 转换 为 CSV 并 保存 至 S3 

















train data = train df.to csv (None, header=False, index=False) .encodqe ( ) 

val data = val df.to csv (None, header=False, index=False) .encodqe ( ) 

test data = test df.to csv (None, header=True, index=False) .encode() 

with s3.o0pen(f'{data bucket}/{subfolder}/processed/train.csv', 'wb') as f: 
f.write(train data ， 站 

ee < | 将 train.csv 文件 写 入 S3 

with s3.o0pen(f'{data bucket}/{subfolder}/processed/val.csv', 'wb') as 工 : 
f.write(val data) | 将 val.csv 文 件 写 入 S3 

with s3.o0pen(f'{data bucket}/{subfolder}/processed/test.csv', 'wb') as f: 
f .write(test data) | 将 test.csv 文 件 写 入 S3 

train input = sagemaker.s3_input( 


s3_data=f's3://{data bucket}/{subfolder}/processed/train.csv', 
content_ type='csy') 

val_input = sagemaker.s3_input\l( 
s3_data=f's3://{data bucket}/{subfolder}/processed/val .csv', 
content_ type='csy') 


图 3-7 展示 了 保存 在 S3 中 的 数据 集 。 


国 Overview 


Q Type a prefix and press Enter to search. Press ESC to clear. 


二 Upload 中 Create folder Actions ~v 




















Name 
刚刚 在 S3 中 创建 
的 3 个 文件 [9 test.csv 
[9 train.csv 
[DD val.csv 





L 


图 3-7 S3 文件 夹 中 列 出 的 CSV 文件 





邮 


3.6 ”构建 模型 55 


3.6.4 ”第 四 部 分 : 训练 模型 


下 面 要 训练 模型 了 ， 第 2 草 没 有 详细 介绍 有 关 训 练 醒 型 的 内 容 。 现 在 ， 你 已 经 对 XGBoost 
有 了 更 深入 的 了 解 ， 我 们 将 对 训练 过 程 进行 更 多 的 说 明 。 

代码 清单 3-8 中 有 趣 的 地 方 是 名 总 臣 工 币 轴 让 个 基 超人 参数。 下 一 童 将 讨论 max_depth 和 subsample。 

目前 ， 我 们 感 兴 趣 的 超 参 数 如 下 所 示 。 

口 opjective 一 一 如 第 2 章 所 述 , 将 此 超 参 数 设 置 为 pinary:1ogistic。 在 目标 变量 为 1 
或 者 0 时 使 用 此 设置 。 如 采 目 标 变量 是 多 类 变量 或 连续 变量 ， 则 需要 使 用 其 他 设置 ， 我 
们 将 在 后 续 草 六 中 进行 讨论 。 

D eval_metric 一 一 你 要 优化 模型 的 评估 指标 。 正 如 理 碍 德 在 本 章 前 面 的 讨论 的 那样 ， 度 
量 参数 auc 代表 曲线 下 的 面积 。 

口 num_roungd 一 一 你 希望 机 带 学 习 模 型 遍历 训练 数据 的 次 数 ( 迭代 次 数 ), 例如 ， 每 次 遍历 
数据 时 ， 子 数 都 能 更 好 地 将 深 色 圆 圈 与 浅 色 圆 圈 分 开 ( 请 参考 第 1 章 中 有 关机 顶 学 习 的 
说 明 )。 过 了 了 一会儿， 模型 变 得 比 过 去 精确 了 。 它 开始 在 测试 数据 中 找到 没有 反映 在 现实 
世界 中 的 模式 ， 这 称 为 过 拟 合 。 和 迭代 次 数 越 多 ， 过 拟 合 的 可 能 性 就 越 大 。 为 了 避免 这 种 
情况 ， 可 以 提前 设置 停止 提 代 次 数 。 

UD early stopping rounds 在 此 夫 代 次 数 下 ， 全 大 行 无 法 改进 则 停止 。 

D scale_pos_weight 一 一 正信 权重 ， 用 于 在 不 均衡 的 数据 集中 确保 模型 重点 关注 训练 过 
程 中 正确 预测 数据 黎 少 的 类 。 在 当前 数据 集中 ,每 17 个 客户 中 大 约束 有 1 个 客户 流失 。 
因此 我 们 将 scale_pos_weignht 值 设置 为 17 以 适应 这 种 不 平衡 。 这 告诉 XGBoost 更 加 
关注 那些 真正 流失 的 客户 ， 而 非 那些 仍 觉得 满意 的 客户 。 












































El 


如 果 你 有 时 间 并 对 此 有 兴趣 , 请 尝试 在 不 设置 scale pos_weight 的 情况 下 重新 训练 模 
型 ， 然 后 查看 它 对 模型 结果 的 影响 。 
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代码 清单 3-8 训练 模型 








sess = Sagemaker.Sesslion() 
Container = sagemaker.amazon.amazon estimator.get_image_ uri( 
boto3.Session() .region name, 
'xgaboost”".; 
'latest') 
estimator = sagemaker.estimator.Estimator\( 
container, 
a 设置 SageMaker 
train instance count=1, 用 来 运行 模型 的 服 
train instance type='ml .m5.1large', 务 器 类 型 


output_ path= \ 
f's3: dat k foOl ' i 
ee TT 设置 模型 在 S3 的 
| 输出 路 径 
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max_ depth=3, om. 
起 参数 
subsample=0.7, 


迭代 次 数 objective='binary:logistic', AUC 评估 指标 超 
超 参 数 eval_metric='auc', -| 参数 


num round=100, 


estimator.set _ hyperparameters ( 一 项 logistic 目标 
一 一 ~ 内 小 


early_stopping_rounds=10, pn i ls 
a 提前 停止 迁 代 超 
Scale pos weight=17) 参数 
estimator.fit({'train': train input, 'validation': val_input}) 
正 值 权重 超 参 数 





当 我 们 在 本 章 ( 以 及 第 2 草 ) 中 运行 此 单元 格 中 的 代码 时 ,会 看 到 笔记 本 中 弹出 了 几 行 红色 
的 通知 。 我 们 并 没有 特别 关注 ,但 实际 上 ， 里 面包 含 了 一 些 有 趣 的 信息 。 尤 其 是 ,我 们 可 以 通过 
碍 看 此 数据 来 观察 模型 是 否 过 拟 合 。 








理 查 德 对 过 拟 合 的 解释 
在 对 XGBoost 的 解释 中 ， 我 们 谈 到 了 过 拟 合 。 过 拟 合 是 指 在 构建 模型 的 过 程 中 ， 模 型 过 
于 严密 或 精确 地 映射 提供 的 训练 数据 ,导致 无 法 准确 或 可 靠 地 预测 未 知 的 数据 ,这 有 时 也 被 称 
为 泛 化 能 力 不 佳 的 模型 。 未 知 的 数据 包括 测试 数据 、 验 证 数据 ， 以 及 在 生产 环境 中 可 以 提供 给 
我 们 端点 的 数据 。 








训练 模型 时 ， 模 型 在 每 一 轮训 练 中 都 会 做 一 些 事情 。 它 先进 行 训练 ， 然 后 进行 验证 。 你 看 到 
的 红色 通知 就 是 验证 过 程 的 结果 。 在 阅读 通知 时 , 你 会 发 现 验证 得 分 在 前 48 次 迭代 中 有 所 提高 ， 
然后 开始 变 差 。 

你 看 到 的 就 是 过 拟 合 ,该 算法 在 构建 将 训练 集中 的 深 色 圆圈 与 浅 色 圆 圈 分 开 的 函数 方面 有 所 
改进 (如 第 1 章 所 述 ),， 但 在 验证 集中 变 得 越 来 越 差 。 这 意味 着 该 模型 开始 在 测试 数据 中 找到 现 
实 世 界 中 (或 者 至 少 在 我 们 的 验证 集中 ) 不 存在 的 模式 。 

XGBoost 的 重要 特性 之 一 是 它 可 以 巧妙 地 为 你 处 理 过 拟 合 。 如 果 过 去 10 次 迭代 没有 任何 改 
善 ， 代 码 清单 3-8 中 的 超 参 数 early_stopping_roungs 就 会 停止 训练 。 

代码 清单 3-9 中 所 示 的 输出 来 自 笔 记 本 中 训练 模型 单元 格 的 输出 。 可 以 看 到 ， 第 15 次 迭代 
的 AUC 为 0.976 057， 第 16 次 迭代 的 AUC 为 0.975 683， 这 两 者 都 不 如 第 6 次 迭代 的 最 高 纪录 
0.980 493。 因 为 我 们 将 early_stopping_rounds 设置 为 10， 所 以 训练 在 第 16 轮 停 止 了 ， 比 
最 佳 结果 的 第 6 轮 多 了 10 轮 。 


代码 清单 3-9 训练 运 代 输出 
[15]#011itrain-auc:0.98571#01lvalidation-auc:0.976057 
[16]#011itrain-auc:0.986562#011validation-auc:0.975683 
Stopping. Best iteration: 
[6]#011train-auc:0.97752#011validation-auc:0.980493 
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3.6.5 ”第 五 部 分 : 部 署 模 型 

现在 ， 模 型 已 经 训练 完成 ， 你 可 以 将 其 部 署 在 SageMaker 上 ， 以 便 随 时 进行 决策 ， 如 代码 清 
单 3-10 所 示 。 本 章 已 介绍 了 很 多 基础 知识 ， 因 此 下 一 半 将 深入 人 研究 部 署 模 型 的 工作 方式 。 现 在 
只 震 知 道 你 正在 设置 一 个 接收 数据 并 返回 结果 的 服务 俘 即 可 。 
代码 清单 3-10 ”部 署 模型 


endqpolnt Parme = 'customer-churn' 








try: 
sess.delete_ endpoint\ 
sagemaker.predictor.RealTimepredictor!l! 
endpoint=endpoint_name) .endpoint) 
print\( 
'Warning: Existing endpoint deletedqd to make way for new endpoint.') 
excCcept: 
pass 


predictor = estimator.deploy (initial instance count=1, ee 
表明 服务 器 类 型 (本 例 为 





instance type='ml.t2.medium’', | 42 di 杀 踢 ) 
endpoint_name=endpoint_name) ml.t2.medium 服务 大 


from sagemaker.predictor import csv_serializer, JSson serializer 


predictor.content_ type = 'text/csy' 
predictor.serializer = csv_serializer 
predictor.deserializer = None 


3.6.6 ”第 六 部 分 : 测试 模型 

现在 已 经 设置 并 部 署 了 端点 ， 你 可 以 进行 决策 了 。 首 先 ， 通 过 系统 运行 测试 数据 ， 以 查看 模 
型 如 何 处 理 以 前 从 未 见 过 的 数据 。 

代码 清单 3-11 中 前 3 行 创 建 了 一 个 男 数 ， 如 果 客 户 流失 的 可 能 性 较 大 则 返回 1， 如果 客户 流 
失 的 可 能 性 较 小 则 返回 0。 接 下 来 的 两 行 打 开 在 代码 清单 3-7 中 生成 的 测试 CSV 文件 。 最 后 两 行 
将 get_prediction 图 数 应 用 于 每 一 行 测试 集 以 展示 测试 结 
代码 清单 3-11 用 测试 数据 进行 决 案 


def get prediction (row): 
prob = float (predictor.predict (row[1:]).decode('utf-8')) 


return 1 if prob > 0.5 else 0 SS | 返回 0~1 范围 内 的 值 


with s3.o0pen(f'{data bucket}/{subfolder}/processed/test.csv') as 工 : 
test data = pd.read csv(f) 








test_ datal[l'decison'] = test data.apply (get_ prediction, axis=1) 
test data.set_index('decision', inplace=True) 
test datal[l:10] 


在 结果 中 ， 你 只 想 展示 1 或 0。 如 果 预 测 结 果 大 于 0.5 (if prob > 0.5), 则 get_prediction 
将 其 处 理 为 1。 否 则 ， 将 预测 结果 人 处 理 为 0。 
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结果 看 起 来 不 错 ， 如 表 3-6 所 示 。 在 churned 列 中 显示 1 的 每 一 行 在 decision 列 中 也 显 
示 1。 有 些 行 在 decision 列 中 为 1, 但 在 churneda 列 中 为 0, 这 意味 着 Carlos 将 致电 这 些 客户 ， 
即使 他 们 没有 流失 的 风险 。 不 过 这 对 Carlos 来 说 是 可 接受 的 , 因为 致电 给 不 会 流失 的 客户 比 致电 
给 流失 的 客户 要 好 得 多 。 








表 3-6 测试 结果 








te total week _ week _ week _ Jast __ 4-3 3-2 2-1 
SPend minus 4 minus 3 minus 2 week delta delta delta 

0 0 17175.67 L447 0.61 1.86 eB 0.86 —] .25 0 .33 

0 0 68881 .33 0.82 2.26 LD9 see —] .44 0.67 -0.13 

1 1 71528.99 2.48 1.36 0.09 L224 1 :12 1.27 —].15 








要 查看 模型 的 整体 效果 ,你 可 以 查看 测试 集 有 多 少 流失 的 客户 与 Carlos 需要 致电 的 客户 数量 
的 比较 情况 。 为 此 ， 可 以 使 用 value_counts 国 数 ， 如 代码 清单 3-12 所 示 。 


代码 清单 3-12 ”查看 用 测试 数据 做 出 的 预测 


计算 流失 的 
print (test datal'churned'] .value counts()) 客户 数量 
xlnt(test data['predqlction'] .value counts 六 

ee 人 ”| 计算 没有 流失 

的 客户 数量 

metrics.accuracy_scorel 
test datal[l'churned'], i 
test _ datal'prediction'])) < 计算 预测 
准确 率 


value_counts 因数 显示 ，Carlos 应 致电 33 个 客户 ， 如 条 他 什么 也 不 做 ， 则 会 有 17 个 客户 
流失 。 但 这 并 没有 多 大 帮助 ， 原 因 有 二 。 
口 这 说 明 预 测 中 有 94.67% 是 正确 的 ， 但 这 并 没有 听 起 来 那么 好 ， 因 为 Carlos 只 有 6% 的 客 
户 流 失 了 。 如 采 我 们 猪 测 客户 没有 流失 ， 那 准确 率 将 达到 94%。 
口 它 并 没有 告诉 我 们 Carlos 致电 的 客户 中 有 多 少 会 流失 。 
为 此 ， 你 需要 生成 一 个 混淆 矩阵: 


0 283 

1 了 7 

Name: churned, dtype: int64 

0 267 

1 33 

Name: prediction, dtype: int64 
0.94.67 








混淆 矩阵 是 机 带 竺 习 中 最 易 混 淆 的 术语 之 一 ,但 由 于 它 也 是 了 解 模型 性 能 最 有 用 的 工具 之 
一 ， 因 此 这 里 会 对 其 进行 介绍 。 

尽管 该 术语 令 人 困惑 ,但 生成 混 湖 矩阵 很 容易 。 你 可 以 使 用 sklearn 函数 ， 如 代码 清单 3-13 
所 未 。 
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代码 清单 3-13 ”生成 混 消 和 矩阵 
printl( 
metrics.confusion matrix\( 


ee 

混 消 和 窍 阵 是 行 数 与 列 数 相等 的 表 。 行 数 和 列 数 对 应 目标 变量 可 能 值 (类 ) 的 数量 。 在 Carlos 
的 数据 集中 ， 目 标 变量 可 能 是 0 或 1， 因 此 混 涌 矩阵 有 2 行 和 2 列 。 更 通俗 地 讲 ， 和 矩阵 的 行 代 表 
实际 的 类 ， 而 列 代表 预测 的 类 。( 注意 : Wikipedia 对 此 的 解释 与 我 们 相反 ， 但 我 们 描述 的 是 
sklearn.confusion_matrix 图 数 的 工作 方式 。) 

在 以 下 输出 中 ， 第 一 行 表 示 满 意 的 客户 〈0 ), 第 二 行 表示 流失 的 客户 (1 )。 左 列 展示 预测 满 
意 的 客户 ， 右 列 展示 预测 流失 的 客户 。 对 于 Carlos 来 说 ， 右 列 还 展示 了 他 致电 了 多 少 客户 。 你 会 
看 到 Carlos 致电 了 16 位 没有 流失 的 客户 和 17 位 流失 的 客户 。 


[[267 16] 
BE 0 


重要 的 是 ， 左 下 角 的 0 展示 了 预计 有 多 少 流失 的 客户 没有 被 预测 为 流失 ， 并 且 他 没有 致电 。 
令 Carlos 非常 满意 的 是 ， 该 数字 为 0。 























理 查 德 关于 可 解释 的 机 器 学 习 的 说 明 

在 本 书 中 , 我 们 着 重 提供 一 些 业 务 问题 的 示例 , 这 些 问 题 可 以 通过 使 用 某 种 机 器 学 习 算 法 
来 解决 ,我 们 还 尝试 从 宏观 上 解释 这 些 算 法 是 如 何 工作 的 ,通常 ,我 们 使 用 相当 简单 的 指标 ( 如 
准确 性 ) 来 判断 模型 是 否 正常 工作 。 但 如 果 要 求 你 解释 模型 为 什么 起 作用 ， 该 怎么 办 呢 ? 

在 确定 模型 是 否 起 作用 时 ,你 的 哪些 特征 最 重要 ,为 什么 ? 例如 ， 该 模型 是 否 偏向 于 损害 
客户 或 员工 中 的 少数 群体 ? 尤其 是 由 于 神经 网 络 的 广泛 使 用 , 而 它 尤 其 不 具备 可 解释 性 , 诸如 
此 类 的 问题 越 来 越 普遍 。 

XGBoost 相对 于 神经 网 络 (我 们 之 前 没有 涉及 过 ) 的 一 个 优势 是 ，XGBoost 支持 对 特征 重 
要 性 的 检查 以 帮助 解决 可 解释 性 的 问题 。 在 撰写 本 书 时 ，Amazon 不 直接 在 SageMaker 的 
XGBoost API 中 支持 此 功能 ， 但 模型 已 以 名 为 model.tar.gz 的 文件 存储 在 S3 上 。 通 过 访问 此 文 
件 ， 我 们 可 以 查看 特征 的 重要 性 。 代 码 清单 3-14 提供 了 有 关 如 何 执行 此 操作 的 示例 代码 。 


代码 清单 3-14 用 来 访问 SageMaker 的 XGBoost modeltar.gz 的 示例 代码 
model path = f'{estimator.output path/ 人 
{estimator._ current job name}/output/model .tar.gz' 
s3.9get (model path, 'xgb tar.gz') 
with tarfile.open('xgb _ tar.gz') as 七 ar: 
with tar.extractfile('xgboost-model') as m:5S 
xgb_model = pickle.1load(m) 





Xxgb_scores = xgb model .get score () 
print (xgb_scores) 
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请 注意 ,我 们 的 笔记 本 不 包含 此 代码 ， 因 为 它 超出 了 这 里 要 介绍 的 范围 。 但 是 对 于 那些 想 深 
入 人 研究 的 人 ， 可 以 借助 这 段 代 码 来 实现 。 
3.7 ”删除 端点 并 停止 笔记 本 实例 

停止 笔记 本 实例 并 删除 端点 很 重要 。 我 们 不 希望 你 因 未 使 用 的 SageMaker 服务 而 付费 。 


3.7.1 删除 端点 


附录 D 描述 了 如 何 使 用 SageMaker 控制 台 集 止 笔记 本 实例 并 删除 端点 ， 或 者 你 也 可 以 使 用 
代码 清单 3-15 中 的 代码 来 执行 此 操作 。 


代码 清单 3-15 ”删除 笔记 本 
# 删除 端点 (可 选 ) 
# 如 果 希 望 袜 点 在 单 击 Run All 后 继续 存在 ， 请 将 该 单元 格 注释 挤 


sess.delete endpoint (text classifier.endpoint) 


要 删除 端 太 ,请 取消 代码 清单 中 的 代码 注释 , 然后 按 Ctrl+Enter 组 合 键 运行 单元 格 中 的 代码 。 











3.7.2 ”停止 笔记 本 实例 


要 停止 笔记 本 ， 请 返回 打开 SageMaker 的 浏览 需 选 项 卡 。 单 击 Notebook instances 荣 单 项 以 
查看 所 有 笔记 本 实例 。 选 择 笔记 本 实例 名 称 劳 边 的 单 选 按钮 ， 如 图 3-8 所 示 ， 然 后 在 Actions 菜 
单 上 单 击 Stop。 停 止 操 作 需 要 几 分钟 时 间 。 











Amazon SageMaker Notebook instances 


Notebook instances 


Open Jupyter 
Q Search notebook instances 2. 选择 Stop ey 


~ Open JupyterLab 


Name 多 Instance Creation time 2 >top 
1. 选择 单 


选 按钮 © mlforbusiness-ch02 mlt2.large May 21, 2018 11:29 UTC Add/Edit tags 


图 3-8 停止 笔记 本 





3.8 检查 以 确保 病 氮 已 被 删除 


如 果 你 没有 用 笔记 本 删除 端点 〈 或 者 只 想 确保 端点 已 被 删除 )， 那 么 可 以 从 SageMaker 控制 
台 执 行 此 操作 。 要 删除 端点 ， 请 单 击 端点 名 称 左 侧 的 单 选 按钮 ， 然 后 单 击 Actions 荣 单 项 ， 接 关 
在 出 现 的 末 单 中 单 击 Delete。 
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成 功 删 除 端 点 后 ， 你 将 不 再 为 此 支付 AWS 费用 。 当 你 在 Endpoints 页 面 底部 看 到 “There are 
currently no resources” 时 ， 可 以 确认 所 有 端点 已 删除 ， 如 图 3-9 所 示 。 


Amazon SageMaker Endpoints 
Q Search endpoints 1 侠 
Name 刀 ARN Creation time 如 Status “及 Last updated 


There are currently no resources. 4 一 一 端点 已 成 功 删除 








图 3-9 确认 你 已 成 功 删除 端点 


3.9 小 结 


口 你 创建 了 机 融 学 习 模 型 来 确定 需要 致电 的 客户 ， 因 为 他 们 有 可 能 流失 到 竞争 对 手 那里 去 。 

口 XGBoost 是 一 种 梯度 提升 的 机 融和 学 习 模 型 ， 它 使 用 不 同 的 方法 来 提高 机 融 学 习 歼 率 。 

D 分 层 是 一 种 可 以 帮助 你 处 理 不 平衡 数据 集 的 技术 。 在 构建 机 器 学 习 模 型 时 ， 它 会 对 数据 
进行 “ 洗 牌 ”， 确 保 训 练 集 、 验 证 集 和 测试 集 包 含 相似 的 目标 变量 比例 。 

口 混 消 矩阵 是 机 带 学 习 中 最 易 混 消 的 术语 之 一 ,但 它 也 是 了 解 醒 型 性 能 最 有 用 的 工具 之 一 。 





你 是 否 应 该 将 事件 和 持 报 给 
文 持 团队 





本 章 要 点 

口 目 然 语言 处 理 (NLP ) 概述 

口 如 何 应 对 NLP 机 器 学 习 场 景 

口 如 何 为 NLP 场景 准备 数据 

D SageMaker 的 文本 分 析 引 擎 : BlazingText 
口 如 何 解 释 BlazingText 的 结 


Naomi 领导 一 个 开 团 队 ， 负 责 处 理 许多 公司 的 客户 文 持 请 求 。 客 户 癌 Twitter 账户 发 送 一 条 
推 文 , Naomi 的 团队 便 会 回复 解决 方案 或 者 要 求 提 供 更 多 信息 。 通 过 发 送 玫 助 客户 解决 问题 的 信 
息 链 接 可 以 处 理 大 部 分 推 文 , 但 大 约 有 四 分 之 一 的 回复 是 针对 需要 进一步 帮助 的 人 。 他 们 需要 感 
觉 到 目 己 的 请 求 被 听 到 了 ，, 否则 就 会 变 得 非常 焦躁。 这 些 客户 在 正确 的 干预 下 会 成 为 最 坚定 的 拥 
护 者 ; 在 错误 的 干预 下 ， 他 们 会 成 为 声音 最 啊 亮 的 批评 着 。Naomi 硕 望 尽早 知道 这 些 客户 是 谁 ， 
以 便 她 的 文 持 团队 能 以 正确 的 方式 进行 干预 。 

她 和 她 的 团队 在 过 去 的 几 年 中 一 下 上 自动 回复 那些 最 常见 的 查询 请 求 , 手动 上 报 必须 由 人 来 处 
理 的 查询 。Naomi 希望 构建 一 个 分 类 系统 ， 对 每 个 请 求 进行 审查 ， 以 确定 应 该 自动 响应 还 是 应 该 
交 给 人 来 处 理 。 

第 运 的 是 ， 对 于 Naomi 来 说 ， 她 有 过 去 儿 年 的 历史 推 文 ， 团队 已 对 其 进行 了 评 佑 ， 并 决定 
了 这 些 推 文 是 应 该 自动 处 理 还 是 应 该 交 给 人 来 处 理 。 在 本 草 中 ， 你 将 获取 Naomi 的 历史 数据 ， 
并 使 用 它 来 决定 新 的 推 文 是 应 该 自动 处 理 还 是 上 报 给 Naomi 的 一 个 团队 成 员 进 行 处 理 。 


4.1 ”你 在 决策 什么 
与 往常 一 样 ， 你 要 关注 的 第 一 件 事 是 你 要 做 出 的 决策 。 在 本 章 中 ，Naomi 做 出 的 决定 是 ， 推 


文 是 否 应 该 上 报 交 由 人 处 理 ? 
在 过 去 几 年 里 ,Naomi 的 团队 采用 的 方法 是 在 客户 表现 出 诅 丧 时 上 报 推 文 。 她 的 团队 在 做 出 
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该 决定 时 并 没有 遵循 任何 严格 的 规则 。 他 们 只 是 觉得 客户 很 泪 丧 ， 所 以 上 报 了 推 文 。 在 本 草 中 ， 
你 将 构建 一 个 机 需 学 习 模 型 ， 该 模型 将 学 习 如 何 根 据 Naomi 团队 之 前 处 理 推 文 的 方式 来 识别 客 
户 的 诅 丧 感 。 


4.2 ”处 理 流程 


该 决策 的 处 理 流程 如 图 4-1 所 示 。 流 程 从 客户 癌 公 司 的 支持 账户 发 送 推 文 开始 ， 然 后 Naomi 
ee s 推 文 ， 以 确定 他 们 是 需要 杂 目 回复 ， 还 是 由 目 动 回复 的 机 融 人 处 理 。 最 后 一 步 是 
器 人 或 Naomi 的 团队 回复 推 文 。 


















Js 
发 推 文 的 人 













支持 人 员 审 
查 推 文 ， 以 
确定 推 文 应 
由 自动 化 系 
由 人 处 理 





目 动 回复 
处 理 推 文 


3 
鱼 支持 人 员 处 理 


支持 人 员 上 的 推广 


图 4-1 Naomi 客户 支持 请 求 的 推 文 啊 应 流程 


Naomi 和 希望 用 机 可 学 习 应 用 程序 代 蔡 图 4-1 中 第 一 步 的 决策 ， 该 应 用 程序 可 以 根据 传人 推 文 
的 诅 丧 程度 做 出 决策 。 本 章 会 介绍 如 何 准备 该 应 用 程序 。 


4.3 ”准备 数据 集 


在 前 两 章 中 ， 你 从 头 到 尾 合成 了 所 需 的 数据 集 。 在 本 章 中 ， 你 将 获取 2017 年 发 送 给 科技 公 
司 的 推 文 数据 集 ， 该 数据 集 由 一 家 名 为 Kaggle 的 4 从 司 发 布 ， 该 公司 负责 举办 机 需 学 习 竞 赛 。 




















Kaggle: 竞赛 和 公开 数据 集 

Kaggle 成 立 于 2010 年， 是 一 家 了 不 起 的 公司 。 它 将 机 器 学 习 游 戏 化 了 ， 通 过 让 数据 科学 

家 团队 彼此 竞赛 来 解决 机 器 学 习 问 题 ， 数 据 科 学 家 可 以 从 中 获得 奖金 。2017 年 年 中 ， 在 被 
Google 收购 前 不 久 ，Kaggle 宣布 其 注册 充 赛 者 已 达到 100 万 。 
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即使 你 无 意 参 加 数据 科学 竟 赛 ，Kaggle 也 是 一 个 很 好 的 熟悉 资源 ， 因 为 它 具 有 公共 数据 
集 ， 可 用 于 你 的 机 器 学 习 训 练 和 工作 。 





为 了 确定 解决 特定 问题 所 需 的 数据 ,你 需要 专注 于 想 要 得 到 的 目标 。 在 这 种 情况 下， 请 考虑 
要 实现 Naomi 的 目标 所 需 的 最 小 数据 集 。 有 了 这 些 信息 后 ， 你 就 可 以 决定 是 仅 使 用 提供 的 数据 
来 实现 她 的 目标 ， 还 是 需要 扩展 数据 来 让 Naomi 更 好 地 实现 其 目标 。 

提醒 一 下 ，Naomi 的 目标 是 根据 其 团队 过 去 上 报 推 文 的 历史 来 确定 哪些 推 文 应 由 人 来 处 理 。 
因此 Naomi 的 数据 集 应 当 包 含 一 条 传人 的 推 文 和 一 个 标签 ， 该 标签 表示 处 理 方 式 是 否 上 报 。 

本 章 使 用 的 数据 集 由 Stuart Axelbrooke 从 Thought Vector 上 传 至 Kaggle。( 你 可 以 在 Kaggle 
网 站 上 查看 原始 数据 集 。) 该 数据 集 包 含 发 送 给 几 家 公司 (Apple、Amazon、 英 国航 空 和 西南 航 
空 ) 的 客户 文 持 部 门 的 300 万 条 推 文 。 

就 像 在 自己 的 公司 找到 的 每 个 数据 集 一 样 ,你 不 能 仅 按 原样 使 用 这 些 数 据 。 它 们 需要 被 转换 
为 机 可 学 习 算 法 能 够 工作 的 格式 。Kaggle 的 原始 数据 集 包 含 原 始 推 文 和 回复 。 在 本 章 的 场景 中 ， 
只 有 原始 推 文 是 相关 的 。 为 了 准备 本 章 的 数据 ,我 们 删除 了 除 原 始 推 文 之 外 的 所 有 推 文 ， 并 根据 
回复 将 原始 数据 标记 为 上 报 或 者 未 上 报 。 处 理 后 的 数据 集 包 含 带 有 标签 的 推 文 和 以 下 列 。 

口 tweet_id 推 文 的 唯一 标识 。 
作者 的 唯一 标识 。 
显示 推 文 的 时 间 。 

DD in reply to 显示 联系 哪个 公司 。 

D text 一 一 包含 推 文 中 的 文字 。 

UD escalate 指出 推广 是否 上 报 。 

表 4-1 显示 了 数据 集中 的 前 3 条 推 文 。 每 条 推 文 都 是 发 给 美国 电话 公司 的 文 持 团 队 Sprint Care 
的 。 可 以 看 到 ， 第 一 条 推 文 [“and how do you propose we do that”( 那 你 建议 我 们 怎么 做 )] 没有 
被 Naomi 的 团队 上 报 给 支持 团队 ,但 第 二 条 推 文 [|“Ihave sent several private messages and no one 
is responding as usual”( 我 已 经 发 了 好 几 条 私信 ， 但 还 是 没有 人 回复 )] 被 上 报 了 。Naomi 的 团队 
让 其 自动 回复 系统 处 理 第 一 条 推 文 , 但 将 第 二 条 推 文 上 报 给 团队 成 员 以 进行 人 工 回复 。 


表 4-1 推 文 数 据 集 


tweet id author id created at in reply to text escalate 























UD author id 





DD created at 
































2 1.1:5:7]2 Tue Oct 31 22:11 sprintcare @sprintcare and how do you False 
2017 
propose we do that 
3 115712 Tue Oct 31 22:08 sprintcare @sprintcare I have sent True 
2017 several 


private messages and no 


one is responding as usual 





5 115712 Tue Oct 31 21:49 sprintcare @Qsprintcare I did. False 
2017 
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在 本 革 中 ,你 将 构建 一 个 机 各 学 习 应 用 程序 ， 以 执行 是 否 上 报 推 文 的 任务 。 但 是 , 该 应 用 程 
序 与 你 在 前 几 章 构 建 的 机 融 学 习 应 用 程序 稍 有 不 同 。 为 了 确定 应 该 上 报 哪些 推 文 , 机 和 硕 学 习 应 用 
程序 需要 了 解 一 些 有 关 博 言 和 含义 的 知识 ,你 可 能 认为 这 很 难 做 到 。 笠 运 的 是 , 一 些 非 第 陪 明 的 
人 已 经 在 这 个 问题 上 研究 了 一 段 时 间 ， 他 们 称 其 为 NLP。 











4.4 NLP 


NLP 的 目标 是 能 够 像 人 处理 数值 或 变量 一 样 高 效 地 用 计算 机 来 处 理 培 言 。 由 于 语言 丰富 多 彩 ， 
这 是 一 个 难题 。( 前 面 的 句子 很 好 地 说 明了 此 问题 的 难度 。) rich 一 词 在 形容 语言 和 形容 人 时 含义 
稍 有 有 不同。 句子 “Well that's rich!” 在 不 同 语 境 中 可 能 意思 相反 。 

自 计 算 机 技术 问世 以 来 , 科学 家 一 直 在 研究 NLP, 但 直到 最 近 , 他 们 才 在 该 领域 取得 了 重大 
进步 NLP 最 初 专 注 于 让 计算 机 理解 每 种 语言 的 结构 。 以 英语 为 例 , 一 个 典型 的 句子 有 一 个 主语 、 
一 个 动词 和 一 个 宾语 ， 如 “Sam throws the ball”; 而 在 日 语 中 ， 句 子 通 常 遵 循 主 语 、 宾 语 、 动 词 
的 模式 。 不 过 这 种 方法 被 大 量 的 、 各 式 各 样 的 异常 情况 所 困扰 ， 并且 在 推广 到 不 同 语言 时 过 到 了 
问题 ， 用 于 英语 NLP 的 代码 不 适用 于 日 语 。 

NLP 的 一 项 重大 突破 发 生 在 2013 年 ， 当 时 NIPS 协 会 发 布 了 有 关 词 向 量 的 论文 "。 有 了 这 种 
方法 ,你 完全 不 用 了 解 语言 ! 只 需 将 数学 算法 应 用 于 一 组 文本 ， 并 使 用 该 算法 的 输出 即 可 ,这 有 
两 个 优点 。 

口 它 目 然 地 处 理 场 言 中 的 异常 和 不 一 致 。 

口 它 与 语言 无 天 ， 并 且 可 以 像 处 理 英 博文 本 一 样 处 理 日 语文 本 。 

在 SageMaker 中 ， 使 用 词 向 量 就 像 处 理 第 2 章 和 第 3 章 中 的 数据 一 样 容 易 ， 但 在 配置 
SageMaker 时 和 需要 做 出 一 些 决策 ， 这 些 决策 需要 你 对 隐藏 在 算法 背后 的 东西 有 所 了 解 。 


4.4.1 ”生成 同 同 量 


正如 第 2 章 中 使 用 pandas 函数 get_gdummies 将 分 类 型 数据 ( 如 桌子 、 键 盘 和 鼠标 ) 转换 为 
多 列 数 据 集 一 样 , 生成 词 回 量 的 第 一 步 是 将 文本 中 的 所 有 单词 都 转换 为 多 列 数据 集 。 例 如 ,单词 
Queen 由 数据 集 0, 1, 0, 0,0 表示， 如 图 4-2 所 示 ， 单 词 Queen 下 面 为 1， 其 他 单词 下 面 为 0。 这 
可 以 描述 为 一 维 向 量 。 















































King Queen Man Woman Princess 


0 1 O00mMo0 


图 4-2 一 维 向 量 测试 相等 性 


GD 详 见 Tomas Mikolov 的 论文 “Distributed Representations of Words and Phrases and their Compositionality”。 
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使 用 一 维 回 量 ， 仅 仅 能 够 测试 相等 性 。 也 就 是 说 ， 你 可 以 确定 这 个 同 量 是 否 等 于 queen 这 
个 词 。 在 图 4-2 中 ， 可 以 看 到 答案 是 肯定 的 。 

Mikolov 的 突破 是 认识 到 可 以 通过 多 维 癌 量 捕获 语义 ， 其 中 每 个 词 的 表示 分 布 在 多 个 维度 。 
图 4-3 从 概念 上 展示 了 癌 量 的 模样 。 每 个 维度 都 可 视 作 一 组 相关 的 单词 。 在 Mikolov 的 算法 中 ， 
这 些 相 关 单 词组 没有 标签 , 但 为 了 展示 多 维 癌 量 如 何 体现 语义 ,我 们 在 图 的 左 侧 提供 了 4 个 标签 : 
Royalty (〈 星 室 )、Masculinity ( 男性 )、Femininity (女性) 和 Elderliness (年 长 的 )。 














King Queen Man Woman Princess 
Royalty 0.99 0.99 0.02 0.02 0.98 
Masculinity 0.99 0.05 0.99 0.01 0.02 
Femininity 0.05 0.99 0.02 0.99 0.94 


Elderliness 0 
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图 4-3 ”多维 问 量 捕获 语义 


观察 图 4-3 的 第 一 个 维度 : Royalty， 可 以 发 现 King (国王 )、Queen (女王 ) 和 Princess ( 公 
主 ) 列 的 值 高 于 Man (男性) 和 Woman (女性 ) 列 ; 而 对 于 Masculinity，King 和 Man 列 的 值 高 
于 其 他 列 。 由 此 ， 可 以 在 脑海 中 浮现 出 一 个 画面 : 国王 是 男性 星 室 ， 而 女王 是 非 男 性 星 室 。 如 有 果 
你 可 以 想象 以 这 种 方式 扩展 数 百 个 回 量 ， 就 会 知道 如 何 体现 语义 。 

回 到 Naomi 的 问题 , 当 每 条 推 文 出 现时 ,该 应 用 程序 将 推 文 分 解 为 多 维 回 量 ,并 将 其 与 Naomi 
团队 标记 过 的 推 文 进行 比较 。 该 应 用 程序 识别 出 训练 集中 哪些 推 文 的 回 量 与 其 相似 。 然 后 ， 它 会 
查看 训练 集 推 文 的 标签 ， 并 将 该 标签 赋予 传人 的 推 文 。 例 如 ， 如 果 传 入 的 推 文 是 “no one is 
responding as usual”( 平常 回应 的 人 去 哪儿 了 ), 而 在 训练 数据 中 有 相似 回 量 的 推 文 可 能 已 经 上 报 ， 
此 对 传 入 的 推 文 也 用 相同 方式 处 理 。 

词 同 量 背 后 的 数学 原理 的 神奇 之 处 在 于 , 它 会 对 定义 的 词 进 行 分 组 。 每 一 个 组 都 是 辐 量 的 维 
度 。 例 如 ， 在 推 文中 ， 发 推 的 人 说 “no one is responding as usual”，as usual (平常 ) 这 个 词组 会 
与 其 他 词组 归 到 一 个 表示 泪 丧 感 的 维度 , 例如 of course ( 当然 ) yeah obviously( 显然) 和 a doy 
(人 徘 你 自己 )。 

King/Queen、Man/Woman 的 例子 经 帝 用 于 解释 词 回 量 。Adrian Colyer 在 精彩 的 博客 “The 
Morning Paper” 中 更 详细 地 讨论 了 词 向 量 。 图 4-2 和 图 4-3 选 自 该 文章 第 一 部 分 中 的 图 。 如 果 你 
有 兴趣 进一步 探索 该 主题 ， 那 么 不 妨 从 Adrian 这 篇 文章 剩 下 的 部 分 开始 。 
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4.4.2 ”决定 每 组 包含 多 少 单词 


为 了 在 SageMaker 中 使 用 向 量 ， 你 需要 做 出 的 唯一 决策 是 SageMaker 是 应 该 使 用 单个 单词 、 
单词 对 ， 还 是 单词 三 元 组 创建 组 。 如 果 SageMaker 使 用 as usual 这 对 单词 ， 那 么 与 使 用 单个 单 
词 as 和 单个 单词 usual 相 比 ， 可 以 得 到 更 好 的 结果 ， 因 为 一 对 单词 表示 的 概念 与 单个 单词 表示 
的 概念 不 同 。 

工作 中 通常 使 用 单词 对 , 但 三 元 组 偶尔 表现 得 更 好 。 在 我 们 要 对 宫 销 术语 进行 提取 和 分 类 的 
一 个 项 目 中 , 使 用 三 元 组 可 以 提高 准确 性 , 这 可 能 是 因为 市 场 营销 中 的 话 术 通常 以 单词 三 元 组 来 
表示 , 例如 world class results ( 世界 级 结果 )、high powered engine ( 大 马力 引擎 ) 和 fat burning 
machine (〈 燃 脂 机 )。 

NLP 使 用 术语 一 元 组 、 二 元 组 和 三 元 组 表示 单个 单词 、 一 对 单词 和 三 个 单词 组 成 的 组 。 图 
4-4、 图 4-5 和 图 4-6 分 别 展示 了 一 元 组 (单个 单词 )、 二 元 组 ( 两 个 单词 ) 和 三 元 组 (三 个 单词 ) 
的 示例 。 

如 图 4-4 所 示 ， 一 元 组 由 单个 单词 组 成 ， 当 单词 顺序 不 重要 时 ， 一 元 组 效果 很 好 。 如 果 你 想 
要 生成 用 于 医学 人 研究 的 词 回 量 ， 一 元 组 能 很 好 地 识别 相似 的 概念 。 





























一 
2 0 3 5 


1 


No one 1S responding as usual 





图 4-4 NLP 定义 单个 单词 为 一 元 组 


如 图 4-5 所 示 ， 二 元 组 由 单词 对 组 成 。 当 词 序 很 重要 时 ， 比 如 在 情感 分 析 中 ， 二 元 组 就 很 好 
用 。 二 元 组 as usual 表达 出 了 诅 丧 感 ， 但 一 元 组 as 和 usual 则 无 法 表达 。 


Te ee 
DOne Is 2 


isresponding 3. 
responding as 4. 
as usual 5. 


图 4-5 单词 对 叫 作 二 元 组 
如 图 4-6 所 示 ， 三 元 组 由 三 个 单词 组 成 。 在 实践 中 ， 从 二 元 组 转换 为 三 元 组 并 没有 太 大 的 进 
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步 , 但 在 有 些 情况 下 还 不 错 。 我 们 致力 于 识别 营销 术语 的 一 个 项 目 采 用 了 三 元 组 , 效果 有 明显 的 
提升 ， 这 可 能 是 因为 三 元 组 能 更 好 地 捕捉 到 hyperbole noun noun ( 夸张 的 -名 词 -名 词 ) 模式 
| 如 greatest coffee maker ( 最 好 的 咖啡 机 ) ] 和 hyperbole adjective noun ( 夸张 的 -形容 词 - 名 词 ) 
模式 | 如 fastest diesel car (最 快 的 柴油 车 ) ]。 


No one is 6 ee 


oneisresponding 2 








至 元 组 


is responding as 3 


responding as usual 4 





图 4-6 单词 被 分 为 三 个 一 组 即 为 三 元 组 


在 我 们 的 案例 研究 中 ， 机 此 学 习 应 用 程序 会 使 用 名 为 BlazingText 的 算法 。 这 可 以 用 来 预测 
是 否 上 报 某 一 条 推 文 。 





4.5 BlazingText 及 其 工作 原理 


BlazingText 是 一 种 名 为 fastText 的 算法 的 一 个 版 本 , 由 Facebook 的 研究 人 员 于 2017 年 开发 ， 
而 fastText 是 由 Google 的 Mikolov 和 其 他 人 开发 的 算法 的 一 个 版 本 。 图 4-7 展示 了 BlazingText 
投入 使 用 后 的 工作 流程 。 在 步骤 1 中 , 需要 技术 文 持 的 人 发 送 一 条 推 文 。 在 步 又 2 中, BlazingText 
决定 是 否 应 将 推 文 上 报 给 某 个 人 以 获得 回复 。 在 步骤 3 中 ,该 推广 会 上 报 ， 由 人 来 回复 ( 步 又 
3a ) 或 由 机 各 人 进行 回复 (步骤 3b )。 








3a. 需要 上 报 的 推 
[el 文 发 送 给 人 进行 
回复 
1. 客户 发 送 请 求 “有 —— 
支持 的 推 文 人 至 
2. BlazingText 决 定 3b 无 须 : 
是 否 上 报 推广 总 me 


人 进行 回复 








图 4-7 BlazingText 决 定 该 推 文 是 否 应 上 报 的 工作 流程 
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为 了 让 BlazingText 决 定 是 否 应 该 上 报 该 条 推 文 , 它 需 要 确定 发 送 该 推 文 的 人 是 否 感到 泪 丧 。 
要 做 到 这 一 点 ，BlazingText 实际 上 无 须知 道 发 送 推 文 的 人 是 否 感 到 诅 丧 , 甚至 无 顷 了 解 该 推 文 的 
内 容 。 它 只 需要 确定 该 推 文 与 已 标记 为 诅 丧 或 不 诅 丧 的 其 他 推广 有 多 相似 。 以 此 为 背 景 ， 你 就 可 
以 开始 构建 模型 了 。 如 果 愿 意 ， 你 可 以 在 Amazon 网 站 上 了 解 有 关 BlazingText 的 更 多 信息 。 











复习 SageMaker 的 使 用 方法 

现在 ， 你 已 适应 了 使 用 Jupyter 笔记 本 ， 是 时 候 回 顾 一 下 SageMaker 的 使 用 方法 了 。 首 次 
设置 SageMaker 时 ， 你 创建 了 一 个 笔记 本 实例 ， 这 是 AWS 配置 来 运行 笔记 本 的 服务 器 。 附 录 
C 指导 你 选择 一 个 中 型 服务 器 实例 ， 因 为 它 有 足够 的 能 力 来 执行 本 书 介 绍 的 所 有 内 容 。 你 在 自 
己 的 工作 中 使 用 较 大 的 数据 集 时 ， 可 能 需要 性 能 更 强 的 服务 器 。 

在 你 运行 笔记 本 进行 本 书 中 的 委 例 研究 时 ，AWS 将 创建 另外 两 个 服务 器 。 第 一 个 是 用 于 
训练 机 器 学 习 模 型 的 临时 服务 器 。 第 二 个 是 端点 服务 器 ,该 服务 器 会 一 直 运 行 ， 直 到 你 删除 端 
点 。 要 在 SageMaker 中 删除 端点 , 请 单 击 端 点 名 称 左 侧 的 单 选 按 钮 ， 然后 单 击 Actions 菜单 项 ， 
接着 在 出 现 的 菜单 项 中 单 击 Delete。 
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现在 ， 你 对 BlazingText 的 工作 原理 有 了 更 深入 的 了 解 ， 下 面 将 在 SageMaker 中 设置 男 一 个 
笔记 本 并 进行 一 些 决策 。 你 将 执行 以 下 操作 就 像 在 第 2 革 和 第 3 草 中 所 做 的 那样 )。 

(1) 将 数据 集 上 传 到 S3 。 

(2) 在 SageMaker 上 设置 笔记 本 。 

(3) 上 传 初始 笔记 本 。 

(4) 基于 数据 运行 。 














提示 如 果 你 直接 阅读 本 章 ， 则 可 能 需要 参考 以 下 附录 ， 它 们 向 你 展示 了 如 何 执 行 以 下 操作 。 
口 附录 A: 注册 AWS。 
口 附录 B: 设置 AWS 的 文件 存储 服务 S3。 
口 附录 C: 设置 SageMaker。 


4.6.1 将 数据 集 上 传 到 S3 


要 设置 本 章 的 数据 集 ,， 你 将 执行 与 附录 B 中 相同 的 步 又。 不 过 无 须 设置 另 一 个 存储 桶 ,你 可 
以 跳 转 到 之 前 创建 的 那个 存储 桶 。 在 示例 中 ， 我 们 将 存储 桶 命名 为 mlforbusiness， 但 你 的 存储 
桶 需要 一 个 不 同 的 名 称 。 进 入 $3 账户 后 ， 你 会 看 见 图 4-8 所 示 的 内 容 。 
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DI Discover the new console Y Quick tips 


中 Create bucket 1 Buckets 0 Public ) 1 Regions 心 


Date created 


Bucket name 单 击 存储 数据 集 Access 向 
的 存储 桶 
Oct 29, 2018 


鼠 hudgeon-mlforbusiness Not public * 7:49:37 AM 
GMT+1100 





图 4-8 ”查看 存储 桶 列表 


单 击 存储 桶 可 以 查看 前 两 章 创建 的 ch02 和 ch03 文件 来。 本章 将 创建 一 个 名 为 ch04 的 新 文 
件 夹 。 可 以 通过 单 击 Create Folder 并 按照 提示 创建 新 文件 夹 。 

创建 文件 夹 后 ， 你 将 返回 到 存储 桶 中 的 文件 夹 列 表 。 在 这 里 ， 你 会 看 到 一 个 名 为 ch04 的 文 
件 夹 。 

现在 已 经 在 存储 桶 中 设置 好 了 ch04 文件 夹 ， 你 可 以 上 传 数据 文件 并 开始 在 SageMaker 中 设 
置 决 策 模型 。 

然后 通过 单 击 Upload 将 CSV 文件 上 传 到 ch04 文件 夹 。 现 在 ， 你 可 以 设置 笔记 本 实例 了 。 














4.6.2 ”在 SageMaker 上 设置 笔记 本 


就 像 在 第 2 章 和 第 3 草 中 所 做 的 那样 ， 你 将 在 SageMaker 上 设置 笔记 本 。 如 采 你 跳 过 了 第 2 
草 和 第 3 章 ， 请 按照 附录 C 中 有 关 如 何 设 置 SageMaker 的 说 明 进 行 操 作 。 

当 你 打开 SageMaker 时 ， 会 看 到 你 的 笔记 本 实例 。 你 为 第 2 章 和 第 3 章 创建 〈 或 者 你 刚刚 按 
照 附录 C 创建 ) 的 笔记 本 实例 将 显示 Open 或 者 Start。 如 果 显 示 Start， 单 击 Start 链接 ， 然 后 等 
待 几 分 钟 ， 以 便 SageMaker 启动 。 如 果 它 显示 Open Jupyter, 单 击 该 链接 以 打开 你 的 笔记 本 列表 。 

打开 后 , 单 击 New 并 在 下 拉 列 表 底 部 选择 Folder， 为 第 4 章 创 建 一 个 新 文件 夹 。 这 将 创建 一 
个 名 为 Untitled Folder 的 新 文件 夹 。 要 重 命名 文件 夹 ， 请 选中 Untitled Folder 劳 边 的 复 选 框 ， 你 
会 看 到 Rename 按钮 。 单 击 Rename， 然 后 将 名 称 更 改 为 ch04。 单 击 ch04 文件 夹 ， 你 会 看 到 一 个 
空 晶 的 笔记 本 列表 。 

正如 已 准备 好 要 上 传 到 S3 的 CSV 数据 一 样 , 我 们 也 已 准备 好 了 现在 要 使 用 的 Jupyter 笔记 本 。 

单 击 Upload 将 customer_ supportipynb 笔记 本 上 传 到 该 文件 夹 。 上 传 文件 后 ， 你 会 在 列表 中 
看 到 该 笔记 本 。 单 击 将 其 打开 。 现 在 ， 就 像 第 2 章 和 第 3 草 中 一 样 ， 你 距离 可 以 运行 机 需 学 习 模 
型 仅 几 步 之 遥 了 。 
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与 第 2 章 和 第 3 章 一 样 ， 你 将 分 六 个 部 分 学 习 代码 : 
口 加 载 并 检查 数据 ; 












































4.7 构建 模型 | 


口 将 数据 转换 为 正确 的 格式 ; 

口 创建 训练 集 和 验证 集 〈 本 例 中 无 须 准 备 测试 集 ); 
口 训练 机 种 学 习 模 型 ; 

口 部 和 著 机 各 学 习 模型 ; 

口 测试 机 带 学 习 模型 并 用 模型 进行 决策 。 








复习 在 Jupyter 笔记 本 中 运行 代码 
SageMaker 使 用 Jupyter 笔记 本 作为 其 交互 方式 。Jupyter 笔记 本 是 一 个 开源 数据 科学 应 用 
程序 ， 可 让 你 将 代码 与 文本 混合 使 用 。 如 下 图 所 示 ，Jupyter 笔记 本 的 代码 部 分 具有 灰色 背景 ， 
而 文本 部 分 具有 和 白色 背景。 


和 Jupyter Customer Support Last Checkpoint: 10/10/2018 (autosaved) ed 
File Edit View Insert Cell Keme Widgets Help Trusted conda_python3 O 〇 
加 | 十 | 呈 划 了 个 HRun 加 CW Code v| | 图 
文本 区 域 
(双击 即 
可 编辑 ) Deciding whether to escalate a customer support 
Sou 代码 单元 格 ( 单 击 进入 
| 单元 格 ， 按 Ctrl+Enter 
Part 1: Load and examine the data 组 合 键 运行 代码 ) 
In [1]: data bucket = ‘mlforbusiness' 
subfolder = “ch64- 
dataset = 'inbound.csyv' 


In [2]: import pandas as pd 
import boto3 
import sagemaker 
import s3fs 
from sklearn.model _ selection import train test split 
四 3- 


展示 文本 单元 格 和 代码 单元 格 的 示例 笔记 本 


要 在 运行 笔记 本 中 的 代码 ， 请 单 击 进入 代码 单元 格 ， 然 后 按 Ctrl+Enter 组 合 键 。 或 者 ， 你 
可 以 在 笔记 本 顶端 的 Cell 菜单 项 中 选择 Run All。 


4.7.1 第 一 部 分 : 加 载 并 检查 数据 


与 前 两 章 一 样 ， 第 一 步 是 指明 数据 的 存储 位 置 。 为 此 ， 你 需要 将 'mlforbusiness ' 更 改 为 
上 传 数据 时 创建 的 存储 桶 名 称 ， 并 将 其 子 文件 夹 重 命名 为 S3 上 存储 数据 的 子 文件 夹 名 称 ， 如 代 
码 清单 4-1 所 示 。 

如 果 你 将 S3 文件 夹 命 名 为 ch04， 则 无 须 修改 该 文件 夹 名 称 。 如 果 你 保留 了 本 章 前 面 上 传 的 
CSYV 文件 的 名 称 ， 则 无 须 修改 inboung .csv 代码 行 。 如 果 你 修改 了 CSYV 文件 的 名 称 ， 则 将 
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inbound.csv 更 新 为 你 修改 的 名 称 。 和 往 稼 一 样 ， 要 在 笔记 本 单元 格 中 运行 代码 ， 请 单 击 该 单 
元 格 ， 然 后 按 Ctrl+Enter 组 合 键 。 


代码 清单 4-1 指明 数据 存储 的 位 置 


存储 数据 的 S3 存储 数据 的 S3 
data_bucket = 'mlforbusiness' 存储 桶 存储 桶 的 子 文 
subfolder = 'ch04' 件 夹 
dataset = 'inbound.csyv' 用 来 训练 和 测试 
模型 的 数据 集 








代码 清单 4-2 中 导入 的 Python 模块 和 库 与 第 2 章 和 第 3 章 中 导入 的 代码 相同 , 但 第 6~8 行 代 
码 除 外 。 这 些 行 导 和 了 Python 的 json 模块 ， 该 模块 用 于 处 理 JSON 格式 ( 用 于 描述 数据 的 结 
构 化 标记 语言 ) 的 数据 。 和 第 6 行 和 第 7 行 导 和 Python 的 json 模块 和 csv 模块 。 数 据 都 是 这 两 
种 格式 。 

接 下 来 导入 的 一 个 新 库 是 NLTK。 这 是 一 个 常用 的 库 ， 用 于 准备 在 机 带 学 习 模 型 中 使 用 的 文 
本 。 本 章 将 使 用 NLTK 令 牌 化 单词 。 令 牌 化 文本 涉及 切 分 文本 并 去 掉 那 些 妨 碍 机 器 学 习 模 型 工作 
的 内 容 。 

本 章 将 使 用 标准 的 wora_tokenize 因数 ， 该 图 数 以 一 种 稳定 的 方式 处 理 缩写 和 其 他 异 销 ， 
将 文本 切 分 为 多 个 单词 。 当 你 没有 花费 大 量 时 间 对 文本 进行 预 处 理 时 ，BlazingText 的 效果 通常 更 
好 。 这 就 是 准备 每 条 推 文 的 全 部 工作 ( 当然 ， 打 标签 除外 ， 这 将 在 代码 清单 4-8 中 进行 处 理 )。 
要 运行 代码 ， 请 单 击 笔记 本 单元 格 并 按 Ctrl+Enter 组 合 键 。 


代码 清单 4-2 ”导入 模块 


导入 Python 库 se 导入 AWS 库 


已 二 
import pandas as pd boto3 村 人 人 
import boto3 以 更 兄 于 和 宫 理 
导入 import sagemaker S3 中 的 文件 
import s3fs 


SageMaker 
from sklearn.model selection \ 
| | 仅 导 入 sklearn 库 中 的 
1mport train test_split ee 
train test _split 模块 


limport json 























limport CSV 


导入 NLTK 库 以 





import nltk 六 : 导入 Python 的 json 模块 以 
I 处 理 JSON 文件 
role = sagemaker.get_ execution role() 
S3 = s3fs.S3FileSysteml(anon=False) 创建 一 个 SageMaker 
导入 csv 模块 以 处 理 、| “| 中 的 角色 
CSV 文 件 了 S3 建 
连接 





你 在 整 本 书 中 都 使 用 了 CSV 文件 。JSON 是 一 种 类 似 于 XML 的 结构 化 标记 语言 ， 但 更 易于 
使 用 ， 代 码 清 单 4-3 展示 了 以 JSON 格式 描述 的 发 票 示例 。 
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代码 清单 4-3 JSON 格式 的 示例 
{ 





"Invoice": { 

"Header": { 
Invoice Number": "INV1234833", 
Invoice Date": "2018-11-01" 




















jy 
VTiee Ts 


{ 





"Description": "Punnet of strawberries", 
"OE nn 6 ， 
"Unit Price": 3 





"Description": "Punnet of blueberries'", 
OEY 1 6 ， 
"Unit Price": 4 


} 


接 下 来 将 加 载 并 查看 数据 。 你 正在 加 载 的 数据 集 有 500 000 行 , 但 只 需 几 秒 钟 即 可 完成 加 载 ， 
即使 在 SageMaker 实例 中 使 用 的 中 型 服务 硕 上 也 是 如 此 。 要 记录 并 显示 单元 格 中 的 代码 运行 所 需 
的 时 间 ， 你 可 以 在 单元 格 中 加 上 ggstime， 如 代码 清单 4-4 所 示 。 


代码 清单 4-4 ”加载 并 查看 数据 














显示 运行 单元 格 中 的 
gg%Lime 代码 所 花费 的 时 间 
dF 二 Pead :G8V | 读 取 代码 清单 4-1 中 S3 
f's3://{data bucket}/{subfolder}/{dataset}') inbound .csv 数据 集 
display (df.head()) 轩 展示 DataFrame 
中 的 前 5 条 数据 











表 4-2 展示 了 运行 代码 display (df .head()) 的 输出 ,请 注意 , 对 DataFrame 使 用 .head () 
也 数 仅 展示 前 5 行 。 


表 4-2 ” 推 文 数据 集 的 前 5 行 



















































































row id tweet id author id created at in reply to text escalate 

0 2 5712 Tue Oct 31 sprintcare @sprintcare and how do you False 
22:11 2017 propose we do that 

1 3 ST Tue Oct 31 sprintcare @Qsprintcare I have sent True 
22:.08- 人 唱和 了 several private messag... 

2 与 S72 Tue Oct 31 sprintcare @Qsprintcare I did. False 
21:49 2017 

3 16 5713 Tue Oct 31 sprintcare @Qsprintcare Since I signed False 
20:00:43 Wit YOU .OTN 
+0000 2017 

4 22 11 .5.716 Tue Oct 31 Ask_ Spectrum @Ask_ Spectrum Would you False 
22:16:48 like me to email you a... 


+0000 2017 
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可 以 看 到 前 5 条 推 文中 只 有 一 条 推 文 被 上 报 了 。 目 前, 我 们 不 知道 这 个 比例 是 在 意料 之 中 还 
是 意料 之 外 。 代 码 清单 4-5 展示 了 数据 集 的 行 数 以 及 上 报 和 没有 上 报 的 推 文 数 ， 要 获得 该 信息 ， 


请 运行 pandas 的 shape 和 value_counts 困 数 。 


代码 清单 4-5 ”展示 数据 集中 上 报 推 文 的 数量 





，。 | 展示 数据 集 的 行 数 


print (f'Number of rows in dataset: {df.shape[l0]}' 
print (df['escalated'] .value counts()) 分 别 展示 上 报 
和 没有 上 报 的 
代码 清单 4-6 展示 了 代码 清单 4-5 的 输出 。 推 文 数 
代码 清单 4-6” 推 文 总 数 和 被 上 报 的 推 文 数 
Number of rows in dataset: 520793 
False 417800 


True 102993 
Name: escalate, dtype: int64 


在 500 000 多 条 推 文 的 数据 集中 ， 只 有 100 000 多 条 的 推 文 是 手动 上 报 的 。 如 果 Naomi 可 以 
让 机 楷 学 习 算 法 读 取 并 上 报 推 文 ， 那么 她 的 团队 能 减少 80% 推 文 阅读 量 。 


4.7.2 第 二 部 分 : 将 数据 转换 为 正确 的 格式 


现在 可 以 在 笔记 本 中 看 到 数据 集 ， 并 可 以 开始 使 用 它 了 。 首 先 ， 为 机 各 学 习 模 型 创建 训练 数 
据 和 验证 数据 。 与 前 两 章 一 样 ， 你 可 以 使 用 sklearn 的 train_test_split 困 数 创建 数据 集 。 使 
用 BlazingText， 在 验证 模型 时 ， 你 可 以 在 日 志 中 看 到 模型 的 准确 性 ， 因 此 无 须 创 建 测试 集 ， 如 代 
码 清单 4-7 所 示 。 


代码 清单 4-7 创建 训练 集 和 验证 集 











train df, val _ df, _, = train test_ splitl( 
dE 
df['escalate'], 创建 
1 建 训 练 集 ER 
test size=0.2, 0 展示 验证 数据 
random_state=0) Ei 的 行 数 
print (f'{train df.shape[l0]} rows in training data') 


print (f'{val_df.shapel[0]} rows in validation data' 


) 
| 展示 训练 数据 的 行 数 


与 前 几 章 使 用 的 XGBoost 算法 不 同 ，BlazingText 无 法 直接 使 用 CSV 数据 。 它 需要 数据 转换 
格式 ， 你 将 在 代码 清单 4-8 至 代码 清单 4-10 中 进行 操作 。 





为 BlazingText 格式 化 数据 
BlazingText 要 求 未 上 报 推 文 的 标签 为 “label 0， 上 报 推 文 的 标签 为 ”1label 1。 标 
签 后 面 是 推 文 的 令 牌 化 文本 。 令 牌 化 是 获取 文本 并 将 其 切 分 为 有 语义 的 部 分 的 过 程 。 这 是 一 项 
艰巨 的 任务 ， 幸 运 的 是 ， 这 些 工 作 由 NLTK 库 来 处 理 。 








返回 


返 


transformed df = pd.DataFrame (transformed rows) 
DataFrame return transformed df 转换 回 
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代码 清单 4-8 定义 了 两 个 国 数 。 第 一 个 函数 是 preprocess， 获 取 一 个 DataFrame ( 包含 代 
码 清单 4-7 中 创建 的 验证 集 或 者 训练 集 )， 将 其 转换 为 一 个 列表 。 然 后 它 对 列表 中 的 每 一 行 调用 
第 二 个 子 数 transform instance, 将 该 行 转换 为 label 0 或 1lapbel 1 的 格式 ， 随 后 是 推 
文 的 文本 。 要 基于 验证 数据 运行 preprocess 图 数 ， 你 需要 对 代码 清单 4-8 中 的 创建 的 val_aqf 
DataFrame 调用 该 负数 。 

首先 在 验证 集 上 运行 此 代码 ， 然 后 在 训练 集 上 运行 。 验 证 集 有 100 000 行 ， 该 单元 格 将 花费 
约 30 秒 的 时 间 运 行 数 据 。 训 练 集 有 400 000 行 , 运行 它 大 约 需 要 2 分 钟 。 大 部 分 时 间 花 费 在 数据 
集 与 DataFrame 之 间 的 互相 转换 。 这 个 时 间 对 于 500 000 行 的 数据 集 是 合适 的 。 如 果 你 要 处 理 具 
有 数 百 万 行 的 数据 集 ， 则 需要 一 开始 就 直接 使 用 csv 模块 而 非 pandas 模块 。 


代码 清单 4-8 将 每 一 行 转换 为 BlazingText 使 用 的 格式 


将 DataFrame 

















def preprocess (df): 转换 为 列表 
all _ rows = df.values.tolist!() 
Eranstormed. rowe SS. Liat | 对 列表 中 每 一 行 调用 transform instance 
map (transform instance, all_ rows)) 顺 数 


DataFrame 





创建 一 个 空 列表 , 其 中 保 
+ 人 饥 人、 疝 、 三 
def transform instance (row): 存 推 文中 每 上 单词 后 的 
cur_row = [] 0 生成 一 个 标签, 若 上 报 
label 三 让 的 人] 三 二 下 We 则 为 1， 反之 则 为 0 
else ' jabel 0' 
CuUur_row.append (label,) ee 
CUr_Irow.extendl 充 和 直 
回 行 nltk.word tokenize (row[4] .lower())) 列表 中 的 第 一 | 
return Cur row 元 素 为 标签 
transformed _ validation_ rows = preprocess (val_df) 设置 每 个 单词 
display (transformed validation rows.head()) 为 列表 中 的 独 
:二 4 立 元 素 
运行 preprocess 展示 前 5 行 
沼 数 数据 








表 4-3 中 的 数据 以 BlazingText 要 求 的 格式 展示 了 前 几 行 数据 。 你 会 看 到 前 两 个 推 文 标签 为 1 
(表示 上 报 )， 而 第 三 行 标 签 为 0 (表示 不 上 报 )。 


表 4-3 ” Naomi 推 文 的 验证 数据 


Labeled preprocessed data 





__label_ 1 (0 115990 no joke... this is one of the worst customer experiences 1 have had verizon. 
maybe time for (© 115714 @ 115911 (@ att? https://t.co/vqmlkvvwxe 

__label__1 (2 amazonhelp neither man seems to know how to deliver a package. that is their entire 
Job! both should lose their jobs immediately. 

__label_ 0 (xboxsupport yes 1 see nothing about resolutions or what size videos 1s exported only 
quality 1 have a 34 " ultrawide monitor 21:9 2560x1080 what 1 need https://t.co/apvwd1dl1q8 
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现在 可 以 使 用 BlazingText 格式 的 文本 了 ， 该 文本 位 于 DataFrame 中 ， 你 可 以 使 用 pandas 的 
to_csv 函数 将 数据 保存 到 S3 上 ， 以 便 将 其 加 载 到 BlazingText 算法 中 。 代 码 清单 4-9 中 的 代码 
将 验证 数据 写 入 S3。 


代码 清单 4-9 为 BlazingText 转换 数据 
s3_validation data = f's3://{data bucket}/\ 
{subfolder}/processed/validation.csy,'! 


data = transformed validation rows.to_ csvl( 
header=False, 
lindex=False, 
Quoting=csv .QUOTE_NONE, 





SEps= "| ; 
escapechar='^') .encode() 
with s3.o0pen(s3_validation data, 'wb') as f: 


f .writel(data) 


接 下 来 ， 你 将 对 代码 清单 4-7 中 生成 的 train_df DataFrame 调用 preprocess 加 数 ， 对 训 
练 数据 进行 预 处 理 ， 如 代码 清单 4-10 所 示 。 


代码 清单 4-10” 预 处 理 并 写 入 训练 数据 
$$$time 
transformed train rows = preprocess (train df) 
display (transformed train rows .headq( ) ) 


S3 traln data = f's3://{data bucket}/{subfolder}/processed/train.csy'! 


data = transformed train rows .to _csVv( 
header=False, 
index=False, 
quoting=csv .QUOTE_ NONE, 





Sep= "| 
escapechar='^') .encode() 
with s3.o0pen(s3_train data, 'wb') as f: 


f .write (data) 
这 样 ， 训 练 集 和 测试 集 就 以 一 种 可 以 在 模型 中 使 用 的 格式 保存 到 S3 中 。 下 一 市 将 带 你 了 解 
数据 导入 SageMaker 的 过 程 ， 以 便 开始 进行 训练 。 
4.7.3 第 三 部 分 : 创建 训练 集 和 验证 集 


现在 ， 你 已 有 了 BlazingText 可 以 使 用 的 格式 的 数据 ， 接 下 来 创建 训练 集 和 验证 集 ， 如 代码 
清单 4-11 所 示 。 


代码 清单 4-11 创建 训练 集 、 验 证 集 和 测试 集 


$$time 





train data = sagemaker.session.s3_ 1nput ( 
s3_train data, 
distribution='FullyReplicated', 
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， 创建 train data 
content type='text/plain', 数据 集 
s3_data type='S3Prefix') WS 


validation data = sagemaker.session.s3_ input( 
s3_validation data, 
distribution='FullyReplicated', 
content_type='text/plain', | 创建 validation_data 
s3_data type='S3Prefix') 数据 集 


这 样 ， 数 据 存 在 于 SageMaker 会 话 中 ， 你 就 可 以 开始 训练 模型 了 。 
4.7.4 第 四 部 分 : 训练 模型 


现在 你 已 准备 好 数据 ， 可 以 开始 训练 模型 了 了， 这 涉及 3 个 步骤 : 

口 设置 容 融 ; 

口 设置 模型 的 超 参数 ; 

口 拟 合 模型 。 

超 参 数 是 这 部 分 代码 中 最 有 趣 的 部 分 。 

类 似 于 第 2 音 和 第 3 章 中 XGBoost 的 num_roungd 人 参数， 指定 BlazingText 
对 训练 数据 运行 的 次 数 。 试 过 一 个 较 低 的 值 并 了 解 到 模型 还 需要 更 多 次 的 迭代 后 ， 我 们 
选择 10 作为 该 参数 的 值 。 根 据 结 果 收 敛 或 开始 过 拟 合 的 方式 ， 你 可 能 需要 将 此 值 调 高 
或 调 低 。 


DD vector dim 




















D epochs 











指定 算法 学 习 的 词 癌 量 的 维 数 ; 默认 值 为 100。 我 们 将 其 设置 为 10， 
为 经 验 表 明 ， 降 低 到 10 通常 仍 有 效 ， 并 且 可 以 减少 消耗 服务 右 的 时 间 。 
D early_stopping 一 一 类 似 于 XGBoost 中 的 提前 停止 。 可 以 将 epochs 设置 为 较 高 的 值 ， 
并 且 提 前 停止 机 制 可 以 确保 相对 于 验证 集 ， 停 止 模 型 训练 时 效果 有 所 改善 。 
设置 当 early stopping 被 激活 ， 则 经 过 多 次 迭代 就 停止 。 
设置 即使 结果 没有 提升 也 要 执行 的 最 小 迭代 次 数 。 
本 草 前 面 的 图 4-4、 图 4-5 和 图 4-6 中 讨论 了 N-gram。 简 而 言 之 , 一 元 
组 是 单个 单词 ， 二 元 组 是 一 对 单词 ， 三 元 组 是 3 个 单词 为 一 组 。 
在 代码 清单 4-12 中 ， 第 一 行 代码 设置 了 一 个 容器 来 运行 模型 。 容 器 只 是 运行 模型 的 服务 器 。 
下 面 j L 行 代码 配置 服务 器 。 set_hyperparameters 国 数 设置 模型 的 超 参 数 。 代码 清单 4-12 的 
最 后 一 行 开始 训练 模型 。 


代码 清单 4-12 ”训练 模型 








D patience 











UD min epochs 





UD word ngrams 








设置 训练 后 模型 的 





输出 位 置 
s3_output_ location = f's3://{data_ bucket}/\ 
{subfolder}/output’' 命名 训练 会 话 
sess = sagemaker.Session() 
container = sagemaker.amazon.amazon estimator.get_ image uri( 

boto3.Session() .region name, 
"blazingtext", 设置 安 器 
0 和 


(服务 器 ) 
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a | eeamacor = Sacgqemaker .estlimator .ESstlImator ( 设置 用 来 训练 模型 的 
服务 器 数量 
分 本 在 代码 ES 、 
清音 4-1 议 train instance type='ml.c4.4xlarge', 六 =| 设置 服务 器 的 性 能 
置 好 的 角色 train max run = 600, 
utput DaEiSed oUtout_ Losatien. 在 服务 器 终止 运 
sagemaker_ session=sess) 行 前 运行 的 最 大 
命名 训练 利于 
会 话 SO set_hyperparameters ( 指定 训练 完成 后 
mode="supervised", 模型 输出 的 位 置 
epochs=10, | 站 
Vee Ci 定 BlazingText 的 模式 
es early_stopping=True, (监督 或 者 无 监督 ) 
数量 Re 设置 训练 和 
星 
We 采用 二 元 组 代 次 数 
word_ngrams=2) i 
开启 提前 的 形式 
停止 机 制 estimator.fit(inputs=data channels, logs=True) 
0 即使 模型 训练 在 第 1 
善 ， 则 提前 | ”| 次 和 迭代 后 没有 提升 ， 
位 让 也 最 少 执行 5 次 迭代 


注意 BlazingText 可 以 以 监督 模式 或 者 无 监督 模式 运行 为 本 划 使 用 的 是 带 标 签 的 文本 ， 所 
以 我 们 选择 以 监督 模型 运行 。 











在 当前 章节 (以 及 第 2 章 和 第 3 章 ) 中 运行 此 单元 格 时 ， 你 会 在 笔记 本 中 看 到 许多 带 有 红色 
通知 的 行 。 运 行 此 单元 格 时 出 现 的 红色 通知 与 XGBoost 的 通知 看 起 来 非常 不 同 。 

每 种 类 型 的 机 器 学 习 模 型 都 提供 了 关于 算法 如 何 进 行 的 相关 信息 。 就 本 书 而 言 ， 最 重要 的 信 
息 位 于 通知 的 末尾 : 训练 准确 性 和 验证 准确 性 ， 在 训练 结束 时 会 展示 这 些 结果 。 人 代码 清单 4-13 
中 的 模型 展示 了 超过 98.88% 的 训练 准确 性 和 92.28% 的 验证 准确 性 。 每 次 迭代 都 会 基于 验证 准确 
性 来 评估 。 


代码 清单 4-13 ”训练 迭代 输出 

















一 一 一 一 一 一 一 一 一 一 一 一 一 一 End of epoch: 9 

Using 16 threads for prediction! 

Validation accuracy: 0.922196 

Validation accuracy improved! Storing best weights... 

##### Alpha: 0.0005 Progress: 98.95% Miljlion Words/sec: 26.89 ##### 
一 一 一 一 一 一 一 一 一 一 一 一 一 一 End of epoch: 10 

Using 16 threads for prediction,! 

Validation accuracy: 0.922455 

Validation accuracy improved! Storing best weights... 

##### Alpha: 0.0000 Progress: 100.00% Million Words/sec: 25.78 ###### 
Training finished. 

Average throughput in Million words/sec: 26.64 
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Total training time in seconds: 3.40 


训练 准确 性 
#train _ accuracy: 0.9888 
Number of train examples: 416634 Re 
YE 准 确 性 
#validation accuracy: 0.9228 


Number of validation examples: 104159 


2018-10-07 06:56:20 Uploading - Uploading generated training model 
2018-10-07 06:56:35 Completed - Training job completed 
Billable seconds: 49 








4.7.5 ”第 五 部 分 : 部 署 模 型 


现在 模型 已 训练 完成 ， 你 可 以 将 其 部 署 在 SageMaker 上 ， 以 便 随 时 进行 决策 ， 如 代码 清单 
4-14 和 代码 清单 4-15 所 示 。 本 和 草 已 介绍 了 很 多 基础 知识 ， 因 此 下 一 章 将 次 入 研究 如 何 部 署 模型 。 
现在 ， 只 需 知道 设置 一 个 可 以 接收 数据 并 返回 决 宋 结 果 的 服务 天 即 可 。 


代码 清单 4-14 部署 模 型 


endpoint_ name = 'customer-support' 








为 了 不 重复 创建 端点 ， 
命名 你 的 着 占 
sess.dqelete_enaqpoint ( 命名 你 的 端点 
sagemaker.predictor.RealTimePpredictor!l! 删除 以 该 名 称 命名 的 


CEY:; 





endpoint=endpoint_name) .endpoint) 


. 现 有 端点 
PIrint( 
'Warning: Existing endpoint deletedqd to make way for new endpoint.') 
except: 
pass 





接 下 来 ,在 代码 清单 4-15 中 创建 并 部 署 端 点 。SageMaker 具有 高 可 扩展 性 ， 可 以 处 理 非常 大 
的 数据 集 。 对 于 本 书 中 使 用 的 数据 集 ， 你 只 需要 一 台 t2.medium 机 需 即 可 部 署 你 的 端点 。 


代码 清单 4-15 ”创建 一 个 新 端点 来 部 署 模型 











print ('Deploying new endpoint...') 

text_ classifier = estimator.deploy ( 
initial instance count = 1, 
instance type = 'ml.t2.medium’', 创建 一 个 
endpoint_name=endpoint_name) 新 端点 


4.7.6 ”第 六 部 分 : 测试 模型 

现在 端点 已 经 完成 设置 和 部 壮 ， 你 可 以 开始 进行 决策 了 。 在 代码 清单 4-16 中 ， 你 设置 了 一 
条 样 例 推 文 ， 对 其 进行 令 牌 化 ， 然 后 进行 预测 。 

可 以 试 着 更 改 第 一 行 中 的 文本 ， 人 然后 按 Ctrl+Enter 组 合 键 以 测试 不 同 的 推 文 。 例 如 ， 将 文本 
disappointed 更 改 为 happy 或 ambivalent, 会 使 标签 结果 从 1 变 为 0。 这 意味 着 “Help me DTm 
very disappointed” 的 推 文 会 被 上 报 , 而 “Help meTm very happy” 和 “Help me I*m very ambivalent” 
的 推 文 则 不 会 。 
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代码 清单 4-16 基于 测试 数据 进行 决 全 





tweet = "Help me I'm very disappointed!" 
样 例 推 文 | 以 代码 清单 4-15 中 创建 的 
tokenized tweet = \ text_classifier 可 以 理 
[' '.join(nltk.worgd tokenize (tweet))] 解 的 格式 创建 payload 
令 牌 化 payload = {"instances" : tokenized tweet)} 
推 文 四 response = \ | 获取 响应 
text_ classifier.predict (json.dumps (payload)) 结果 


escalate = pd.read json (response) 将 响应 结果 转换 为 


escalate | 展示 决策 结果 pandas DataFrame 
4.8 ”删除 端点 并 停止 你 的 笔记 本 实例 
停止 笔记 本 实例 并 删除 端点 很 重要 。 我 们 不 希望 你 因 未 使 用 的 SageMaker 服务 而 付费 。 


4.8.1 删除 端点 


附录 D 描述 了 如 何 使 用 SageMaker 控制 台 停 止 笔记 本 实例 并 删除 端点 ， 或 者 你 也 可 以 使 用 
代码 清单 4-17 中 的 代码 来 执行 此 操作 。 


代码 清单 4-17 ”删除 笔记 本 
# 删除 端点 (可 选 ) 
# 如 果 希 望 端点 在 单 击 Run All 后 继续 存在 ， 请 将 该 单元 格 注释 掉 


sess.delete endpoint (text_ classifier.endpoint) 


有 要 删除 冰点 , 请 去 掉 代 码 清单 中 的 代码 注释 , 然后 按 Ctrl+Enter 组 合 键 运行 单元 格 中 的 代码 。 











4.8.2 ”停止 笔记 本 实例 


要 停止 笔记 本 ， 请 返回 打开 SageMaker 的 浏览 需 选 项 卡 。 单 击 Notebook instances 荣 单 项 以 
查看 所 有 笔记 本 实例 。 选 择 笔记 本 实例 名 称 旁 边 的 单 选 按钮 ， 如 图 4-9 所 示 ， 然 后 在 Actions 菜 
单 上 单 击 Stop。 停 止 操 作 需 要 几 分 钟 的 时 间 。 











Amazon SageMaker Notebook instances 


Notebook instances 


Open Jupyter 


Q Search notebook instances 2 . 选择 Stop 
N_Open JupyterLab 
4 、 Stop 
yp -Ey 、 Name v Instance Creation time vv 
1. 选择 单 选 
按钮 注 “0 mlforbusiness-ch02 ml.t2.large May 21, 2018 11:29 UTC Add/Edit tags 





图 4-9 停止 笔记 本 
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4.9 ”检查 以 确保 并 挟 已 被 删除 


如 果 你 没有 使 用 笔记 本 删除 端点 〈 或 者 只 想 确保 端点 已 被 删除 )， 那 么 可 以 从 SageMaker 控 
制 侣 执行 此 操作 。 要 删除 端 点， 请 单 击 端点 名 称 左 侧 的 单 选 按钮 ， 然 后 单 击 Actions 沫 单项 ， 接 
者 在 出 现 的 亲 单 中 单 击 Delete。 

成 功 删除 端点 后 , 你 将 不 再 为 此 文 付 AWS 费用 。 当 你 在 Endpoints 页 面 的 底部 看 到 “There are 
currently no resources” 时 ， 可 以 确认 所 有 端点 已 删除 ， 如 图 4-10 所 示 。 


Amazon SageMaker Endpoints 
Endpoints Create endpoint 
Q Search endpoints 1 全 
Name 刀 ARN Creation time  。 殖 Status 妃 Last updated 


There are currently no resources. 全 全 、 一 曾 点 已 成 功 删 除 


图 4-10 确认 你 已 成 功 删除 端点 


Naomi 对 你 的 结 来 非 党 满意。 现在 ,她 可 以 通过 你 的 机 带 学 习 应 用 程序 处 理 团 队 收 到 的 所 有 
推 文 ， 以 硝 定 是 否 应 上 报 。 它 识别 诅 玫 感 的 方式 与 团队 成 员 识 别 少 背 推 文 的 方式 相同 〈 因 为 机 人 
学 习 算 法 是 根据 团队 过 去 是 否 上 报 推 文 的 决策 进行 训练 的 )， 这 大 神奇 了 。 想 象 试 肴 通过 建立 规 
则 来 识别 诅 交 的 推 文 是 多 么 困难 。 

















4.10 “小 结 


口 你 可 以 使 用 NLP 来 决定 推 文 是 否 上 报 ， 该 技术 可 以 捕 换 多 维 词 癌 量 的 含义 。 

口 为 了 能 在 SageMaker 中 使 用 向 量 ， 你 需要 做 出 的 唯一 决定 是 SageMaker 在 分 组 时 使 用 单 
个 单词 、 一 对 单词 还 是 三 个 单词 。 为 了 说 明 这 一 点 ，NLP 分 别 用 术语 一 元 组 、 二 元 组 和 
三 元 细 米 个 。 

口 BlazingText 是 一 种 算法 , 可 以 让 你 对 带 标 签 的 文本 进行 分 类 , 以 便 为 NLP 场景 处 理 数 据 。 

口 NLTK 是 一 个 常用 的 库 ， 它 通过 令 牌 化 文本 使 其 能 被 机 带 学 习 模 型 使 用 。 

口 令 牌 化 文本 涉及 切 分 文本 并 去 挥 那 些 妨 但 机 融 学 习 模型 工作 的 内 容 。 
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本 章 要 点 

口 你 真正 要 回答 的 问题 是 什么 

口 一 个 不 需要 训练 数据 的 机 器 学 习 场 景 

口 监督 机 硕 尝 习 和 无 监督 机 和 需 学 习 之 间 的 区 别 
口 深入 研究 异 和 并 检 测 

口 使 用 随机 裁剪 穆 林 (Random Cut Forest ) 算法 

















ee 他 负责 检查 银行 肤 用 的 律师 事务 所 回 银 行 开 具 的 票据 是 否 
正确 。 你 会 问 ， 这 能 有 多 难 ? 答案 是 “非常 难 ”。 去 年 ，Brett 的 银行 在 数 以 千 计 的 法 律 事 务 上 选 
ee 
用 电子 表格 维护 这 些 简 百 是 一 场 亚 梦 。 

本 章 将 使 用 SageMaker 和 随机 裁剪 森林 算法 构建 一 个 模型 ， 该 模型 会 突出 显示 Brett 应 该 问 
律师 事务 所 问 询 的 发 票 项 。Brett 可 以 将 该 过 程 应 用 于 每 张 发 票 来 让 律师 在 工作 时 保持 警觉 从 
而 每 年 为 银行 节省 数 十 万 美元 。 现 在 开始 吧 ! 


与 往常 一 样 ， 首 先 关 注 的 是 我 们 要 做 出 的 决 泉 。 在 本 革 中 ， 咎 一 看 ，Brett 必须 决策 的 问题 
是 ,是 否 应 该 更 仔细 地 查看 发 票 项 ， 以 确定 律师 事务 所 开 的 发 票 是 否 正 确 。 但 是 ， 如 采 你 想 构 建 
一 种 日 分 之 百 正 确 的 机 带 学 习 算 法 来 回答 这 个 问题 , 则 几乎 肯定 会 失败 。 幸运 的 是 ， 对 你 和 Brett 
来 说 ， 这 不 是 你 们 真正 想 要 回答 的 问题 。 

为 了 了 解 Brett 带 给 银行 的 真正 价值 ， 我 们 来 看 看 他 的 工作 流程 。 银 行 发 现 律师 事务 所 的 成 
本 正在 逐渐 失去 控制 ， 于 是 Brett 和 他 的 团队 开始 履行 职责 了 。 在 过 去 几 年 中 ，Brett 的 团队 采用 
的 方法 是 八 工 查 有 每 张 发 棱 ， 并 赁 二 沉 来 确定 是 否 检查 律师 事务 所 的 费用 。Brett 在 查看 发 票 时 ， 

通 笛 可 以 很 好 地 判断 费用 是 否 与 该 律师 事务 所 所 处 理 的 案件 类 型 一 致 。 他 可 以 非 笛 准确 地 判断 出 
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律师 事务 所 是 否 按照 合伙 人 而 非 初 级 律师 的 标准 收取 了 异 稼 高 的 办 条 时 间 费 用 , 或 者 该 律师 事务 
所 是 否 虚 报 了 他 们 的 律师 助理 在 某 个 案件 上 花费 的 时 间 。 

当 Brett 过 到 明显 的 异 和 党 情况 (他 认为 发 票 收费 不 正确 ) 时 ， 就 会 联系 该 律师 事务 所 并 要 求 
提供 有 关 其 费用 的 进一步 信息 。 律 师 事 务 所 的 回应 方式 有 两 种 。 

口 他 们 提供 额外 信息 以 证 明 其 费用 合理 。 

口 他 们 将 费用 降低 到 与 这 种 典型 案件 更 相符 的 金额 。 

值得 注意 的 是 ，Brett 在 这 种 关系 中 确实 没有 很 大 的 影响 力 。 如 果 他 的 银行 指示 律师 事务 所 
处 理 某 个 案件 ， 而 律师 事务 所 声明 某 项 特定 的 研究 工作 花费 了 律师 助理 5 个 小 时 的 时 间 ，Brett 
对 此 几乎 无 法 反驳 。Brett 可 以 说 ， 这 似乎 花 了 很 长 时 间 。 但 律师 事务 所 可 以 这 样 回答 :“ 嗯 ， 就 
是 花 了 这 么 长 时 间 。”Brett 不 得 不 接受 。 

不 过 这 种 看 待 Brett 工作 的 方式 过 于 局 限 。Brett 工作 有 趣 的 地 方 是 ， 他 能 够 发 挥 作 用 并 不 是 
因为 他 可 以 百分之百 地 识别 出 有 问题 的 发 票 项 , 而 是 因为 律师 事务 所 知道 Brett 非常 善于 挑 毛病 。 
因此 ,如 果 律 师 事 务 所 对 某 一 特定 类 型 的 服务 收费 超过 了 通常 收取 的 数额 ,他们 就 知道 需要 做 出 
解释 。 

律师 真 的 不 喜欢 为 目 己 的 费用 辩护 ,这 不 是 因为 他 们 没有 理由 ， 而 是 因为 他 们 更 愿意 把 时 间 
花 在 回 其 他 客户 收费 上 。 因 此 ， 当 律师 准备 他 们 的 时 间 表 时 ， 如 有 果 知 道 某 个 发 票 项 收取 了 较 多 的 
时 间 费 用 且 可 能 不 容易 辩护 的 时 候 , 他 们 会 权衡 是 否 应 该 下 调 时 间 。 这 项 决定 的 结 采 乘 以 每 年 回 
银行 开具 的 数 千 个 发 票 项 ， 为 银行 节省 了 数 十 万 美元 。 

在 这 种 情况 下 ， 你 要 回答 的 真正 问题 是 ，Brett 需要 问 询 哪些 发 票 项 以 督促 律师 事务 所 正确 
7 

这 个 问题 从 根本 上 不 同 于 最 初 的 那个 问题 ， 即 如 何 准 确 找 出 哪个 发 票 项 异常 。 如 果 你 试图 
正确 找 出 异常 的 发 票 项 ， 则 成 功 与 否 取 决 于 准确 性 。 但 是 ， 在 这 种 情况 下 ， 如 有 果 你 只 是 试图 找 
出 足够 的 异常 项 以 督促 律师 事务 所 向 银行 正确 开票 ， 那 么 你 的 成 功 取 决 于 能 否 有 效 地 发 现 足够 
的 异常 项 。 








































































































异常 率 达 到 多 少 才 是 足够 异常 

要 准确 地 回答 这 个 问题 需要 耗费 大 量 的 时 间 和 和 精力。 如 果 律 师 知 道 每 1000 条 骨 常 项 中 有 
1 条 会 被 问 询 ， 那 么 其 行为 可 能 根本 不 会 有 所 改变 ， 但 如 果 他 们 知道 10 条 异常 项 中 有 9 条 会 
被 问 询 ， 那 么 他 们 会 在 准备 时 间 表 时 三 思 而 后 行 。 

在 学 术 论 文中 ,你 想 非 常 精确 地 确定 该 阅 值 ,在 商业 世界 中 ,你 需要 权衡 追求 准确 性 的 收 
盖 与 无 法 进行 其 他 项 目的 成 本 ， 因 为 你 需要 花 时 间 才 能 确定 这 个 阅 值 。 以 Brett 为 例 ， 将 算法 
的 结果 与 Brett 团队 成 员 的 执行 能 力 进行 比较 可 能 就 足够 了 。 如 果 它 们 大 致 匹配 ， 你 就 找到 了 
这 个 赚 值 。 
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5.2 ”处 理 流程 


该 决策 的 处 理 流程 如 图 5-1 所 示 。 一 开始 ,律师 开 出 一 张 发 票 并 将 其 发 送 给 Brett ( 1 )。 收 到 
发 票 后 ，Brett 或 者 其 团队 成 员 会 检查 发 票 ( 2 )， 然 后 根据 发 票 中 列 出 的 费用 是 否 合理 来 执行 以 
下 两 项 操作 之 一 。 

口 发 票 被 发 送 到 应 付 账 款 账户 以 进行 付款 (3 )。 

口 发 票 被 退回 给 律师 ， 要 求 对 其 费用 进行 说 明 (4 )。 




















A 1 
律师 开发 票 
4 、、 
问 询 
2 
Brett 检 和 查 发 要 
3 
按照 发 票 付 款 


图 5-1 当前 的 工作 流程 显示 了 Brett 审核 从 律师 那里 收 到 发 票 的 过 程 








每 年 部 有 成 二 上 万 的 发 深 需 要 检查 ， 这 对 于 Brett 和 他 的 两 名 员工 来 说 是 一 项 全 职工 作 。 

图 5-2 展示 了 实现 本 章 将 要 构建 的 机 融 学 习 应 用 程序 后 的 新 工作 流程 。 当 律师 发 送 发 票 (1 ) 
时 ，Brett 或 者 他 的 团队 没有 检查 发 票 ， 而 是 通过 机 溃 学 习 模型 来 确定 发 票 是 否 包含 任何 寞 稼 项 (2 )。 
如 果 没 有 异常 情况 ， 则 发 票 将 下 接 发 送 给 应 付 账 蒜 账户 ， 而 不 会 由 Brett 团队 进一步 检查 (3 )。 如 采 
检测 到 寞 稼 项 ， 那 么 应 用 程序 将 发 票 发 送 回 给 律师 ， 并 要 求 对 所 收取 费用 做 出 进一步 的 说 明 〈4) 
Brett 在 此 过 程 中 扮演 的 角色 是 对 流程 进行 一 些 抽 查 ， 以 确 你 系统 按 设 计 运行 (5 )。 
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A 1 


lssal 


he 
律师 开发 票 


问 询 
家 
5 


Brett 定 期 检查 以 
人 确认 流程 是 耕 
正常 DD MY FH 
机 顷 学 习 模 型 
检查 发 票 





3 


je 





图 $-2 ”实现 机 需 学 习 应 用 程序 捕获 发 票 中 的 异常 的 新 工作 流程 
现在 ，Brett 不 需要 检查 发 票 ， 因 此 可 以 将 更 多 的 时 间 花 在 其 他 工作 职责 上 ， 如 维护 和 改善 
与 供应 商 的 关系 。 
5.3 ”准备 数据 集 


你 在 本 章 中 使 用 的 数据 集 是 理 查 德 合成 的 数据 集 。 它 包含 来 日 Brett 银行 保留 的 律师 事务 所 
的 100 000 行 发 票 项 数据 。 

















合成 数据 与 真实 数据 

合成 数据 是 分 析 师 创建 的 数据 , 而 不 是 来 源 于 现实 世界 的 数据 。 你 在 使 用 自己 公司 的 数据 
时 ， 你 的 数据 将 是 真实 数据 ， 而 不 是 合成 数据 。 

高 质量 的 真实 数据 集 比 合成 数据 更 有 趣 ， 因 为 它 通常 比 合成 数据 更 微妙 。 有 了 真实 数据 ， 
你 会 在 其 中 找到 出 乎 意料 的 有 趣 模 式 。 另 外 , 合成 数据 之 所 以 表现 出 色 , 是 因为 它 可 以 准确 地 
展示 你 想 要 展示 的 概念 ， 但 它 缺乏 使 用 真实 数据 帘 来 的 惊喜 和 发 现 的 乐趣 。 

第 2 章 和 第 3 章 中 使 用 了 合成 数据 (采购 订单 数据 和 客户 流失 数据 )。 第 4 章 使 用 了 真实 
数据 (发 送 给 客户 支持 团队 的 推 文 )。 第 6 章 将 继续 使 用 真实 数据 (能 耗 数据 )。 


律师 事务 所 的 发 票 通 稼 非 笛 详细 , 并 显示 了 该 律师 事务 所 在 每 项 任务 上 所 花费 的 时 间 。 律师 
事务 所 通 第 按 每 级 收费 。 初 级 律师 和 律师 助理 ( 从 事 不 需要 律师 资格 证 的 工作 的 员工 ) 的 费用 比 
高 级 律师 和 律师 事务 所 合伙 人 低 。 律 师 事 务 所 发 票 上 的 重要 信息 是 所 处 理 案件 的 类 型 ( 如 反 获 
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赃 1 )、 执 行 任务 的 人 员 类 型 (如 律师 助理 、 初 级 律师 、 合 伙 人 等 人 在 该 任务 上 花费 的 时 间 ， 以 及 
所 需 的 费用 。 本 章 将 使 用 的 数据 集 包 含 以 下 儿 列 。 
口 Matter Number 一 一 每 张 发 票 的 标识 从 。 如 果 两 个 发 票 项 具有 相同 的 Matter Number， 
那么 意味 着 它们 在 同一 张 发 票 上 。 
律师 事务 所 名 称 。 
发 票 所 涉及 的 案件 类 型 。 
DResource 执行 任务 的 人 员 类 型 。 
口 Activity 一 一 执行 任务 的 活动 类 型 。 

















DFirm Name 


Matter Type 




















D Minutes 该 任务 花费 的 时 间 。 

UD Fee 执行 任务 的 人 员 的 小 时 计酬 。 

UD Total 总 费用 。 

口 Error 一 一 指示 发 票 项 是 否 包含 错误 的 列 。 请 注意 ,该 数据 集 有 这 一 列 ， 是 为 了 让 你 确定 








模型 找 出 不 合理 的 发 票 项 的 成 功率 。 在 现实 的 数据 集中 ， 没 有 此 字段 。 
表 5-1 展示 了 数据 集 的 3 个 发 票 项 。 


表 5-1 律师 提交 给 银行 的 发 票 项 数据 集 

















Matter Number Firm Name Matter Type Resource Activity Minutes Fee Total Error 
0 Cox Group AnNntitrust Paralegal Attend 1.10 50O 91.67 False 
Court 
0 Cox Group Antitrust JUnNior Attend 505 150 1262.50 True 
Court 
0 Cox Group Antitrust Paralegal Attend 60 DO0 50:00 False 
Meeting 





本 章 , 你 将 构建 一 个 机 融 学 习 应 用 程序 以 找 出 收费 不 合理 的 发 票 项 .用 机 融 学 习 的 术语 来 说 ， 
你 正在 识别 数据 中 的 异 笛 。 


5.4 ”什么 是 异常 


异 弟 是 指 不 如 篆 的 数据 点 。 定 义 不 寻 常 通常 并 不 容易 。 例 如 ， 图 5-3 中 的 图 像 包含 一 个 非常 
容易 发 现 的 异 第 ， 图 中 只 有 一 个 数字 5， 其 余 的 所 有 字符 均 为 大 写 S。 
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图 5-3 单个 异常 ， 在 该 数据 集中 很 容易 发 现 此 异常 


但 如 果 是 图 5-4 呢 ? 异常 就 不 那么 容易 发 现 了 。 

图 5-4 中 的 数据 集中 实际 上 有 两 个 异常 。 第 一 个 异常 类 似 于 图 5-3 中 的 异常 。 图 像 右 下 方 的 
数字 5 是 唯一 的 数字 ， 而 其 他 字符 是 英文 字母 。 找 出 另 一 个 异常 非常 难 : 唯一 成 对 出 现 的 两 个 字 
符 都 是 元 音字 母 。 诚 然 ， 人 类 几乎 不 可 能 识别 出 这 个 异常 ,但 如 果 有 足够 的 数据 ， 机 需 学 习 算 法 
就 可 以 找到 它 。 
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图 5-4 一 个 复杂 的 异 第 ， 在 该 数据 集中 发 现 第 二 个 异 肖 更 难 


就 像 图 5-3 和 图 5-4 一样 ，Brett 的 工作 是 找 出 律师 事务 所 发 送 给 他 所 在 银行 的 发 票 中 的 异常 
情况 。 一 些 发 票 中 的 异常 项 很 容易 找到 。 发 票 可 能 包含 高 郧 的 人 力 资 源 费 用 , 例如 律师 事务 所 的 
律师 助理 或 者 初级 律师 每 小 时 收取 500 美元 , 或 者 发 票 可 能 包含 特定 任务 耗费 的 大 量 时 间 , 例如 
会 议 计 时 360 分 钟 。 

但 其 他 异常 项 较 难 发 现 。 例 如, 反 垄 断案 件 通 常 比 破产 案件 的 开庭 时 间 更 长 。 如 果 是 这 样 的 
话 , 破产 案件 开庭 时 间 为 500 分钟 可 能 是 异常 项 , 但 同一 法 姓 关 于 反 芍 断 案件 的 开庭 时 间 可 能 就 
是 正常 的 。 

在 识别 图 5-3 和 图 5-4 中 的 异常 时 ， 你 可 能 已 经 注意 到 的 一 个 挑战 是 ， 你 不 知道 要 查找 的 异 
常 类 型 。 这 与 识别 真实 数据 中 的 异常 并 没有 什么 不 同 。 如 果 你 被 告知 异常 与 数字 和 字母 有 关 ， 就 
很 容易 在 图 5-3 和 图 5-4 中 找 出 5。Brett 是 一 位 训练 有 素 的 律师 ， 多 年 来 一 直 在 检查 法 律 发 票 ， 
此 可 以 快速 、 轻 松 地 找 出 异常 ， 但 他 可 能 对 于 自己 为 什么 能 知道 某 个 特定 项 异常 不 自 知 。 

本 章 不 会 定义 任何 规则 来 帮助 模型 确定 哪些 发 票 项 存在 异常 。 实际 上 , 你 甚至 不 会 告诉 模型 
哪些 发 票 项 存在 异常 ， 该 模型 将 自己 处 理 ， 这 称 为 无 监督 机 需 学 习 。 


5.5 ”监督 机 兹 学 习 与 无 监督 机 兹 学 习 


在 本 章 处 理 的 样本 中 ， 你 可 以 让 Brett 标记 他 通常 会 问 询 的 发 票 项 ， 并 使 用 这 些 发 票 项 数据 
来 训练 XGBoost 模型 ， 这 与 第 2 章 和 第 3 章 中 训练 XGBoost 模 型 的 方式 类 似 。 但 是 ， 如 果 Brett 
没有 为 你 工作 ， 你 是 否 仍 可 以 使 用 机 顺 学 习 来 解决 这 个 问题 ?事实 证 明 是 可 以 的 。 

本 章 使 用 的 机 器 学 习 应 用 程序 使 用 一 种 名 为 随机 裁剪 和 森 林 的 无 监督 算法 来 确定 是 否 应 该 问 
询 发 票 。 监 督 算法 与 无 监督 算法 的 区 别 在 于 ,无 监督 算法 不 会 提供 任何 标注 过 的 数据 。 你 只 需 提 
供 数 据 ， 算 法 就 会 决定 如 何 解 读 。 

第 2~4 草 使 用 的 是 监督 机 器 学 习 算 法 ,本 章 将 使 用 无 监督 算法 。 第 2 草 中 的 数据 集中 有 一 个 
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名 为 tech_approval_required 的 列 , 该 列 用 于 模型 了 解 是 否 需 要 技术 部 门 的 审批 。 第 3 草 的 
数据 集 有 一 个 名 为 churned 的 列 ， 该 列 用 于 模型 了 解 客 户 是 否 流 失 。 第 4 草 的 数据 集中 有 一 个 
名 为 escalate 的 列 ， 该 列 用 于 了 解 特定 的 推 文 是 否 上 报 。 

在 本 章 中 ,你 不 会 告诉 模型 应 该 问 询 哪 些 发 票 。 取而代之 的 是 ,你 让 算法 找 出 哪些 发 票 存 在 
寞 清 ， 并 且 你 将 问 询 那些 异常 超过 国 值 的 发 票 项 ， 这 就 是 无 监督 机 各 学 习 。 


5.6 ”随机 裁 前 森林 及 其 工作 原理 


本 章 将 使 用 的 机 带 学 习 算 法 是 随机 裁 藤 森林 。 它 的 名 称 很 下 日 ,因为 该 算法 采用 随机 数据 点 
(随机 )， 将 其 裁 筋 为 相同 数量 的 点 并 生成 树 〈 裁 勇 )， 然 后 一 起 碍 看 所 有 树 〈 和 森林 ) 以 决定 某 个 
数据 点 是 否 寞 第 。 随 机 裁剪 森林 由 此 而 得 名 。 

树 是 有 序 存 储 效 值 型 数据 的 一 种 方法 。 最 简单 的 树 类 型 被 称 为 二 叉 树 。 这 是 一 种 存储 数据 的 
好 方法 ， 因 为 计算 机 使 用 起 来 既 简 单 又 快速 。 要 生成 一 棵 树 ， 请 随机 划分 数据 点 ， 直 到 你 区 分 出 
要 测试 的 数据 点 以 决定 它 是 否 异 浓 。 每 次 划分 数据 点 时 都 会 创建 树 的 新 层次 。 在 区 分 出 目标 数据 
点 之 前 ， 划 分 数据 点 所 需 的 次 数 越 少 ， 则 该 数据 点 成 为 异 稼 数据 样本 的 可 能 性 就 越 大 。 

在 接 下 来 的 两 全， 你 会 看 到 两 个 样本 ， 其 中 包含 了 带 有 目标 数据 点 的 树 。 在 第 一 个 样本 中 ， 
目标 数据 点 古 寞 常数 据点 。 在 第 二 个 样本 中 ， 目标 数 据点 不 再 寞 第 。 当 你 将 所 有 样本 整合 起 来 看 
成 一 上 和 森林 时 ， 会 发 现 第 二 个 样本 中 的 点 不 太 可 能 异 笛 。 


5.6.1 样本 1 


图 5-5 显示 了 6 个 深 色 点 ， 它 们 代表 从 数据 集中 随机 抽取 的 6 个 数据 点 。 日 色 点 表示 你 正在 
测试 以 确定 是 否 异 闸 的 日 标 数据 点 。 从 视觉 上 来 说 , 可 以 看 到 日 色 点 与 数据 样本 中 的 其 他 值 略 有 
不 同 ， 因 此 有 可 能 是 寞 第 。 但是， 你 如 何 用 算法 来 确定 这 一 上 操 ? 这 束 需 要 树 这 种 表现 形式 。 
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图 5-5 样本 1: 晶 色 点 代表 异常 
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图 5-6 展示 了 树 的 项 层 。 顶 层 是 单个 三 态 ， 代 表 样 本 中 的 所 有 数据 点 ( 包括 你 要 测试 的 目标 
数据 点 )。 如 来 市 态 包 含 除 要 测试 的 目标 扣 以 外 的 所 有 数据 点 ， 则 该 市 点 的 颜色 会 显示 为 深 色 。 
(顶层 太后 始终 是 深 色 的 ， 因 为 它 代表 了 样本 中 的 所 有 数据 点 。) 








图 5-6 样本 1: 1 层级 树 表 示 一 个 节点 ， 其 中 所 有 数据 点 为 一 组 


图 5-7 展示 了 第 一 次 划分 数据 之 后 的 数据 点 。 切 分 线 随 机 搬入 数据 点 中 。 切 分 线 的 每 一 侧 代 
表 树 中 的 一 个 人 点。 


市 扩 B 市 态 C 





图 5-7 样本 1: 在 第 一 次 划分 后 ， 在 两 个 方 扣 之 间 划 分 的 2 层级 数据 后 


图 5-8 展示 了 树 的 下 一 层级 。 图 5-7 的 左 侧 为 树 左 侧 的 节点 B， 右 侧 为 树 右 侧 的 市 点 C。 例 
中 的 两 个 节点 均 显示 为 深 色 ， 因 为 从 图 5-7 中 划分 出 来 的 两 侧 都 至 少 包含 一 个 深 色 点 。 
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图 5-8 样本 1: 2 层级 树 表 示 数 据点 分 为 两 组 ， 其 中 两 个 证 点 均 显 示 为 深 色 


接 下 来 进一步 划分 图 中 包含 目标 数据 点 的 部 分 ， 如 图 5-9 所 示 。 可 以 看 到 右 侧 的 节点 C 保持 
不 要， 而 左 侧 又 划分 为 节点 D 和 市 点 EE。 市 太 忆 只 包含 目标 数据 点 ， 因 此 不 知 要 进一步 划分 。 























图 5-9 样本 1: 目标 数据 点 与 数据 集中 的 值 分 开 的 3 层级 数据 点 


图 5-10 展示 了 树 的 最 后 模样 。 市 点 为 日 色 ， 因 为 它 包含 目标 数据 点 。 此 树 有 3 层 。 酝 的 
层级 越 少 ， 该 点 异 稍 的 可 能 性 就 越 大 。 这 棵 树 只 有 3 层 ， 说 明 该 目标 数据 点 可 能 是 异 


能 是 异常 的 。 


pe 
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图 5-10 样本 1: 3 层级 树 表 示 对 一 个 2 层级 组 再 次 划分 以 分 离 卓 标 数据 点 


下 面 来 看 为 一 个 样本 :6 个 数据 点 更 紧密 地 聚集 在 目标 数据 点 周围 。 
5.6.2 样本 2 











在 第 二 个 数据 样本 中 ， 随 机 选择 的 数据 点 更 崇 密 地 肾 集 在 目标 数据 点 周围 。 知 要 注意 的 是 ， 
我 们 的 目标 数据 点 与 样本 1 中 使 用 的 数据 点 相同 ,唯一 的 区 别 是 从 数据 集中 提取 了 不 同 的 数据 点 


样本 。 可 以 在 图 5-11 中 看 到 ， 样 本 中 的 数据 点 ( 深 色 点 ) 比 样本 1 中 的 数据 点 更 紧密 地 聚集 在 
目标 数据 点 周围 。 




















注意 在 图 5-11 和 本 节 后 面 的 图 中 ， 树 图 在 数据 点 图 的 下 方 展示 。 
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图 5-11 样 例 2: 1 层级 数据 点 与 1 层级 树 表 示 所 有 数据 点 都 在 一 个 组 里 


束 像 在 样本 1 中 那样 ， 图 5-12 将 图 分 为 两 部 分 ,分 别 为 标注 为 B 和 C。 由 于 两 个 部 分 都 包 
含 深 色 点 ，2 层级 笃 网 的 所 有 古 点 神 是 诛 色 。 


5 








图 5-12 样本 2: 2 层级 数据 点 和 2 层级 树 表 示 1 层级 组 被 划分 为 两 组 
接 下 来 ， 再 次 划分 包含 目标 数据 点 的 部 分 。 如 图 5-13 所 示 ，B 部 分 被 划分 为 标 有 DD 和 EE 的 
两 个 部 分 , 并 且 在 树 图 上 增加 了 一 个 新 的 层级 。 这 两 部 分 都 包含 一 个 或 多 个 深 色 点 ， 所 以 树 图 的 
3 层级 显示 为 深 色 。 
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图 5-13 ” 样 例 2: 3 层级 数据 点 和 3 层级 树 表示 其 中 一 个 2 层级 组 被 划分 为 两 组 


目标 数据 点 在 卫 部 分 ， 所 以 将 其 划分 为 两 部 分 ， 分 别 标注 为 E 和 G， 如 图 5-14 所 示 。 
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图 5-14 样 例 2: 4 层级 数据 点 和 4 层级 树 表 示 其 中 一 个 3 层级 组 被 划分 为 两 组 
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目标 数据 点 在 部分， 因此 该 部 分 被 划分 为 H 和 J 两 个 部 分 ， 如 图 5-15 所 示 。J 部 分 仅 包 含 
标 数 据点 ， 因 此 显示 为 白色 。 无 须 进 一 步 划分 。 结 果 图 有 5 个 层级 ， 这 表明 目标 数据 点 不 太 可 


履 
是 异常 。 
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图 5-15 样 例 2: 5 层级 数据 点 和 5 层级 树 表示 其 中 一 个 4 层级 组 补 划 分 为 两 组 ， 用 于 
分 离 出 目标 数据 点 


随机 裁剪 森林 算法 执行 的 最 后 一 步 是 将 树 合 并 为 森林 。 如 果 很 多 样本 的 树 的 层级 很 少 , 那么 
目标 数据 点 可 能 是 异常 。 如 果 只 有 少数 样本 的 树 的 层级 较 少 ， 那 么 目标 数据 点 可 能 不 是 异常 。 
你 可 以 通过 AWS 网 站 进一步 了 解 随机 裁剪 森林 。 








理 查 德 对 于 随机 裁 勇 森林 中 “森林 ”部 分 的 解释 
随机 裁剪 森林 将 数据 集 划 分 为 森林 中 树 的 数量 (由 超 参 数 num_trees 指定 )。 在 训练 过 
程 中 ， 从 整个 数据 集中 总 共 采 样 了 num _ trees x num samples_per tree 个 独立 数据 点 ， 
并 且 无 放 回 。 对 于 小 型 数据 集 ， 这 等 于 观测 样本 总 数 ， 但 对 于 大 型 数据 集 ， 则 无 须 如 此 。 
但 是 ,在 推测 过 程 中 ,通过 循环 遍历 森林 中 的 所 有 树 并 确定 基于 每 棵 树 获得 的 异种 分 值 ， 可 
以 得 到 一 个 全 新 数据 点 的 异种 分 值 ， 然 后 对 该 分 值 求 平均 数 ， 以 确定 该 点 是 否 应 该 被 视 为 异常 。 
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5.7 ”准备 构建 模型 


现在 , 你 对 随机 裁 辟 森林 的 工作 原理 有 了 更 深入 的 了 解 , 下面 将 在 SageMaker 中 设置 万 一 个 
笔记 本 并 进行 决策 。 就 像 在 第 2~4 革 中 所 做 的 那样 ， 你 将 执行 以 下 操作 。 

(1) 将 数据 集 上 传 到 S3。 

(2) 在 SageMaker 上 设置 笔记 本 。 

(3) 上 传 初 始 笔记 本 。 

(4) 基于 数据 运行 。 








注意 如 果 你 直接 阅读 本 章 ， 则 可 能 需要 参考 附录 ， 它 们 展示 了 如 何 执行 以 下 操作 。 
口 附录 A: 注册 AWS。 
口 附录 B: 设置 AWS 的 文件 存储 服务 S3。 
口 附录 C: 设置 SageMaker。 


5.7.1 将 数据 集 上 传 到 S3 


要 设置 本 章 的 数据 集 ， 需 执行 与 附录 B 中 相同 的 步 又。 不 过 你 无 须 设 置 另 一 个 存储 桶 ， 而 是 
可 以 跳 转 到 先前 创建 的 那个 存储 桶 。 在 示例 中 ， 我 们 将 存储 桶 命名 为 mlforbusiness， 但 你 的 存 
储 桶 需要 一 个 不 同 的 名 称 。 

进入 S3 账户 ， 你 会 看 见 为 保存 前 几 章 数据 文件 而 创建 的 存储 桶 。 单 击 存储 桶 可 以 查看 你 在 
前 面 章节 创建 的 ch02 、ch03 和 ch04 文件 夹 。 在 本 章 中 ， 你 将 创建 一 个 名 为 ch05 的 新 文件 夹 。 
通过 单 击 Create Folder 并 按照 提示 创建 一 个 新 文件 夹 。 

创建 文件 夹 后 ， 你 将 返回 到 存储 桶 中 的 文件 夹 列表 。 在 这 里 ， 你 会 看 到 一 个 名 为 ch05 的 文件 
夹 。 现 在 已 在 存储 桶 中 设置 好 了 ch05 文件 夹 ， 你 可 以 上 传 数据 文件 并 开始 在 SageMaker 中 设置 决 
策 模 型 。 然 后 通过 单 击 Upload 将 CSV 文件 上 传 到 ch05 文件 夹 。 现 在 ， 可 以 设置 笔记 本 实例 了 。 




















5.7.2 ”在 SageMaker 上 设置 笔记 本 


就 像 在 第 2~4 章 中 所 做 的 那样 , 你 将 在 SageMaker 上 设置 笔记 本 。 如 果 你 跳 过 了 前 面 的 章节 ， 
请 按照 附录 C 中 关于 设置 SageMaker 的 说 明 进 行 操 作 。 

当 你 打开 SageMaker 时 ,会 看 到 你 的 笔记 本 实例 。 你 为 前 面 章节 创建 的 笔记 本 实例 (或 者 你 
刚刚 按照 附录 C 创建 的 笔记 本 实例 ) 将 显示 Open 或 者 Start。 如 果 显 示 Start， 则 单 击 Start 链接 ， 
然后 等 待 几 分 钟 ， 以 便 SageMaker 启 动 ， 如 果 屏 幕 显示 Open Jupyter， 则 单 击 该 链接 以 打开 你 的 
笔记 本 列表 。 

打开 后 , 单 击 New 并 在 下 拉 列 表 底 部 选择 Folder, 为 第 5 章 创 建 一 个 新 的 文件 夹 。 这 将 创建 
一 个 名 为 Untitled Folder 的 新 文件 夹 。 选 中 Untitled Folder 旁边 的 复 选 框 , 你 会 看 到 Rename 按钮 。 
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单 击 Rename， 然 后 将 文件 名 改 为 ch05。 单 击 ch05 文件 夹 ， 你 会 看 到 一 个 空白 的 笔记 本 列表 。 
正如 已 准备 好 要 上 传 到 S3 的 CSV 数据 (activities.csv ) 一 样 , 我 们 也 已 准备 好 了 现在 要 使 用 


的 Jupyter 笔记 本 。 


单 击 Upload 将 笔记 本 文件 detect suspicious lines.ipynb 上 传 到 ch05 文件 来。 上 传 文件 后 ， 


你 会 在 列表 中 看 到 该 笔记 本 。 单 击 它 以 将 其 打开 。 现 在 ， 就 像 前 几 童 一样， 你 距离 可 以 
尝 习 模型 仅 几 步 之 遥 了 。 


5.8 构建 模型 


与 前 儿 草 一 样 ， 你 将 分 六 个 部 分 学 习 代 但 : 

口 加 载 并 检查 数据 ; 

口 将 数据 转换 为 正确 的 格式 ; 

口 创建 训练 集 和 验证 集 ( 本 样本 无 须 准 备 测试 集 ); 
口 训练 机 器 学 习 模 型 ; 

口 部 署 机 天 学 习 模型 ; 

口 测试 机 器 学 习 模 型 并 用 模型 进行 决策 。 


复习 在 Jupyter 笔记 本 中 运行 代码 


一 一 一 


运行 


机 依 


SageMaker 使 用 Jupyter 笔记 本 作为 其 界面 Jupyter 笔记 本 是 一 个 开源 数据 科学 应 用 程序 ， 
可 以 让 你 将 代码 与 文本 混合 编辑 。 如 下 图 所 示 ，Jupyter 笔记 本 的 代码 部 分 具有 灰色 背景 ， 文 


本 部 分 具有 白 加 

和 Jupyter customer Support Last Checkpoint: 10/10/2018 (autosaved) ed 
File Edit View Insert Ce Kermel Widgets Help Trusted | conda_python3 OO 

十 > wa | 个 vy HRun 国 Cy Code v 到 | 

文本 区 域 
(双击 妈 | 

sh es, whether to escalate a customer support 

IsSSUe 代码 单元 格 ( 单 击 单元 格 ， 


并 按 Ctrlt+Enter 组 合 键 运 


Part 1: Load and examine the data 行 代码 ) 
In [1]: data bucket = ‘mlforbusiness' 
subfolder = 'ch@4'" 


dataset = 'inbound.csyv' 


In [2]: import pandas as pd 
import boto3 
import sagemaker 
import s3fs 
from sklearn.model selection import train test split 
过 = 


展示 文本 单元 格 和 代码 单元 格 的 示例 Jupyter 笔记 本 


导入 
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要 运行 笔记 本 中 的 代码 ， 请 单 击 代码 单元 格 ， 然 后 按 Ctrl+Enter 组 合 键 。 要 运行 笔记 本 ， 
可 以 从 笔记 本 顶部 的 Cell 菜单 项 人 Run All。 运 和 2 记 本 时 ，SageMaker 会 加 载 数 据 、 训 
练 模型 、 设 置 端点 并 根据 测试 数据 进行 决策 。 


5.8.1 第 一 部 分 : 加 载 并 检查 数据 


与 之 前 三 划一 样 , 第 一 步 是 指明 数据 的 存储 路 径 。 在 代码 清单 5-1 中 , 你 需要 将 'mlforbusiness' 
更 改 为 上 传 数据 时 创建 的 存储 桶 名 称 ， 然 后 将 子 文件 夹 更 改 为 要 存储 数据 的 S3 子 文件 名 称 。 如 
果 你 将 $3 文件 夹 命 名 为 cn05， 则 无 须 更 改 该 文件 夹 名 称 。 如 果 你 保留 了 本 章 前 面 上 传 的 CSV 
文件 名 称 ， 则 也 无 须 修 改 activities.csv 代码 行 。 如 果 重 命名 了 CSYV 文件， 则 需要 使 用 更 
改 后 的 文件 名 称 。 要 在 笔记 本 单元 格 中 运行 代码 ， 请 单 击 该 单元 格 ， 然 后 按 Ctrl+Enter 组 合 键 。 


代码 清单 5-1 指明 数据 存储 的 位 置 

















存储 数据 的 S3 i ee 
a 存储 桶 子 储 数据 的 S3 存 
data_bucket = 'mlforbusiness . 
SUNfEoOLder := Tl08 | 储 桶 的 子 文件 夹 


dataset = 'activities.csy' 用 来 训练 和 测试 
模型 的 数据 集 
接 下 来 ， 你 将 导入 SageMaker 用 于 准备 数据 、 训 练 机 需 学 习 模 型 和 设置 端点 的 所 有 Python 


库 和 模块 。 代 码 清单 5-2 中 导入 的 Python 模块 和 库 与 前 几 章 中 使 用 的 导入 相同 。 
代码 清单 5-2 导入 模块 


导入 Python 库 pandas 已 导入 s3fs 模块 ， 

号 入 AWS 库 | 以 便 更 易于 管理 
import. Pandas as pd boto3 忆 
import boto3 S3 中 的 文件 


import s3fs 











1mport sagemaker 
SageMaler From sklearn:nmeel Select lion. ™\ 一 仅 导 入 sklearn 库 的 
import train test_ split train test_split 
import json - | 模块 


import CSV 








导入 json 模块 处 理 
role: Ss Soavenmaker det executionm roler) JSON 文件 
s3 = s3fs.S3FileSystem(anon=False) 
导入 cev 模块 与 S3 a 1 
以 处 理 以 喜 号 分 连接 
隔 的 文件 





该 数据 集 包 含 过 去 3 个 月 由 你 的 律师 团队 处 理 的 所 有 案件 的 发 票 项 。 数 据 集 大 约 有 100 000 
行 ， 包含 在 2000 张 发 票 〈 每 张 发 票 50 行 ) 中 。 它 包含 以 下 几 列 。 
D Matter Number 一 一 每 张 发票 的 标识 待 。 如 宁 两 个 发 票 项 具有 相同 的 案件 号 码 ， 则 意味 
着 它 们 在 同一 张 发 票 上 。 
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D Firm Name 一 一 律师 事务 所 名 称 。 

UD Matter Type 发 票 所 涉及 的 案件 类 型 。 
DResource 执行 任务 的 人 员 类 型 。 

口 Activity 一 一 执行 任务 的 活动 类 型 。 

该 任务 花费 的 时 间 。 











DD Minutes 














Fee 执行 任务 的 人 员 的 小 时 计酬 。 
口 Total 总 费用 。 
口 Error 指示 发 票 项 是 否 收 费 不 合理 的 列 。 


注意 训练 过 程 中 不 会 使 用 Error 列 ， 因 为 在 我 们 的 场景 中 ， 只 有 在 联系 律师 事务 所 并 确定 发 
票 项 是 否 有 误 时 ， 才 会 得 知 该 信息 。 此 处 包含 该 字段 ， 可 以 让 你 确定 模型 的 运行 情况 。 





接 下 来 加 载 并 查看 数据 。 在 代码 清单 5-3 中 ， 你 读 取 了 activities.csv 文件 中 前 20 行 的 CSV 
数据 ， 以 将 其 显示 在 pandas DataFrame 中 。 在 此 代码 清单 5-3 中 ， 你 使 用 了 另 一 种 在 pandas 
DataFrame 中 显示 数据 行 的 方式 。 以 前 ， 你 使 用 head () 函数 显示 前 5 行 。 在 代码 清单 5-3 中 ， 你 
显 式 地 用 数值 来 展示 特定 的 行 。 


代码 清单 5-3 ”加 载 并 查看 数据 





df = pd.read csyv ( | 
f's3://{data bucket}/{subfolder}/{dataset}') 中 的 S3 数据 集 


Ce ee 展示 DataFrame 中 的 3 行 
(第 5 行 、 第 6 行 和 第 7 行 ) 
在 此 示例 中 ， 前 5 行 均 未 展示 发 票 项 有 不 妥 之 人 处。 你 可 以 通过 查看 最 右 侧 的 列 ( Error ) 来 
判断 发 票 项 是 否 有 误 。 之 所 以 显示 第 5 行 、 第 6 行 和 7 行 ， 是 因为 它们 展示 了 2 行 Error 为 
False 以 及 一 行 Error 为 True 的 记录 。 表 5-2 展示 了 运行 display (df [5:8]) 的 输出 。 

















表 5-2 ”发票 项 数据 集 展示 了 运行 display (df [5:8]) 返 回 的 3 行 数据 


Row number Matter Number Firm Name Matter Type Resource Activity Minutes Fee Total Error 


























5 0 Cox Antitrust Paralegal Attend 110 50 “91.67 False 
Group Court 

6 0 Cox Antitrust Junior Attend 505 150 1262.50 True 
Group Court 

7 0 Cox Antitrust Paralegal Attend 60 50 “50.00 False 
Group Meeting 


在 代码 清单 5-4 中 ,使 用 pandas 的 value_counts 子 数 来 确定 错误 率 , 可 以 看 到 ,在 100 000 
行 发 票 项 中 , 大约 2000 行 有 不 妥 之 处 ,这 使 错误 率 达 到 了 2%。 请 注意 ， 在 实际 情况 中 ， 你 不 会 
知道 错误 率 ， 因 此 你 必须 运行 一 个 小 项 目 ， 通 过 从 发 票 项 中 采样 以 确定 错误 座 。 
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[id="esc 展示 错误 率 : 
Se False 表示 无 误 ， 


dF | ele ontety True 表示 有 误 


代码 清单 5-5 显示 了 代码 清单 5-4 中 的 代码 输出 。 
代码 清单 5-5 ”不 需要 上 报 的 推 文 数量 和 需要 上 报 的 推 文 效 量 


False 103935 
TIUE 2030 
Name: escalate, dtype: int64 


代码 清单 5-6 展示 了 案件 类 型 、 人 员 类 型 和 活动 类 型 。 


代码 清单 5-6 ”数据 概览 








print (f'Number of rows in dataset: {df.shape{[0]}') 
print() 

print ('Matter types:') 

Print (df ['Matter Type'|] .value counts ()) 

print() 

Print ('Resources:') 

print (df ['Resource'] .value counts()) 

print() 

print ('Activities:') 

print (df ['Activity'] .value_ counts()) 














代码 清单 5-7 展示 了 代码 清单 5-6 中 代码 的 运行 结果 。 可 以 看 到 有 10 种 案件 类 型 ， 从 
Antitrust ( 反 区 新) 到 Securities 1 ee rt 证 券 诉讼 ); 4 种 人 员 类 型 ,从 Paralegal 
(律师 助理 ) 到 | Partner ( 合伙 人 ); 4 种 活动 类 型 ， 例如 Phone Call ( 电话 )、 Attend Meeting 
( 参加 会 议 ) 和 Attendq Court (出 庭 )。 


代码 清单 5-7 查看 数据 概览 


Number of rows in dataset: 105965 


Matter types: 














Antitrust 23922 
Insolvency 16499 
工 PO 了 4236 
Commercial arbitration 12927 
Project finance 11776 
M&A 6460 
Structured finance 5498 
Asset recovery 4913 
Tax planning 4871 
Securities litigation 4863 








Name: Matter Type, dtype: int64 


ReSOurCes: 
Partner 26587 


$.8 构建 模型 99 





J TT 26543 
Paralegal 26519 
Senior 26316 


Name: Resource, dtype: int64 
大 


AcCctivities: 

Prepare Opinion 26605 
Phone Call 26586 
Attend Court 26405 
Attend Meeting 26369 


Name: Activity, dtype: int64 


机 禹 学 习 模 型 使 用 这 些 特征 来 确定 哪些 发 票 项 可 能 是 错误 的 。 在 下 一 部 分 中 , 你 将 处 理 这 些 
特征 ， 将 其 转换 为 正确 的 格式 供 机 带 学 习 模 型 使 用 。 


5.8.2 第 二 部 分 : 将 数据 转换 为 正确 的 格式 


加 载 数据 后 ， 你 需要 将 其 转换 为 正确 的 形式 。 这 涉及 以 下 3 个 步骤 。 

口 将 分 类 型 数据 转换 为 数值 型 数据 。 

口 将 数据 集 切 分 为 训练 数据 和 验证 数据 。 

口 删除 不 必要 的 列 。 

你 将 在 笔记 本 中 使 用 的 机 融 学 习 算法 是 随机 裁剪 森林 算法 。 就 像 第 2 革 和 第 3 草 中 使 用 的 
XGBoost 算法 一 样 ， 随 机 裁剪 森林 算法 无 法 处 理 文 本 值 ， 所 有 内 容 都 必须 是 数值 。 另 外 ， 就 像 
第 2 章 和 第 3 章 中 做 的 那样 ， 你 将 使 用 pandas 的 get_gdummies 函数 将 Matter Type 列 、 
Resource 列 和 Activity 列 中 每 个 不 同 的 文本 值 转换 为 0 或 者 1。 例 如 , 表 5-3 展示 的 3 列表 
将 转换 为 4 列表 。 























表 5-3 应 用 get_dqummies 国 数 之 前 的 数据 








Matter Number Matter Type Resource 
0 AnNntitrust Paralegal 
0 Antitrust Partner 








转换 后 的 表 ( 表 5-4 ) 具有 4 列 ， 因 为 需要 为 任意 一 列 中 每 个 唯一 值 创建 一 个 额外 的 列 ， 如 
表 5-4 所 示 。 假 设 表 5-3 中 的 Resource 列 有 两 个 不 同 的 值 ， 则 该 列 被 分 为 两 列 : 每 种 人 员 类 型 








为 一 列 。 
表 5-4 应 用 get _dummies 函数 后 的 数据 
Matter Number Matter Type Antitrust Resource Paralegal Resource Partner 
0 1 中 0 
0 0 








在 代码 清单 5-8 中 ， 你 通过 在 最 初 的 df pandas DataFrame 上 调用 get_qdummies () 了 荫 数 来 创 
建 一 个 名 为 encodeqd_df 的 pandas DataFrame。 这 里 调用 head ( ) 函数 将 返回 DataFrame 的 前 3 行 。 
请 注意 ， 由 于 列 中 每 个 唯一 值 都 变 成 一 列 ， 因 此 这 会 创建 非常 宽 的 数据 集 。 本 草 使 用 的 
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DataFrame 从 9 列 增加 到 了 24 列 。 要 确定 表 的 宽度 , 你 需要 减 去 应 用 get_qummies 图 数 的 列 数 ， 
并 加 上 每 一 列 中 唯一 元 素 的 数量 。 因 此 ， 一 旦 减 去 应 用 get_dqummies 函数 的 3 列 ， 最 初 的 9 列表 
就 变 成 了 6 列表 。 人 然后 ，Matter Type 列 中 每 个 唯一 元 素 增 加 一 列 ， 束 是 10 列 ，Resource 和 
Activity 列 中 每 个 唯一 元 系 增 加 一 列 ， 分 别 是 4 列 ， 最 后 将 扩展 为 24 列 。 


代码 清单 5-8 创建 训练 数据 和 验证 数据 





encoded_ df = pd.get_dqummies ( 将 这 3 列 转 换 
dE 为 对 应 每 个 唯 
columns=['Matter Type', 'Resource', 'Activity']) 一 值 的 列 

encoded_ df.head(3) 

国 展示 DataFrame 
前 3 行 


5.8.3 第 三 部 分 : 创建 训练 集 和 验证 集 


现在 ， 你 将 数据 集 分 为 训练 集 和 验证 集 ， 如 代码 清单 5-9 所 示 。 请 注意 ,在 该 笔记 本 中 ， 你 
没有 测试 集 。 在 现实 世界 中 , 测试 数据 的 最 佳 方法 通 稼 是 比较 使 用 机 顺 学 习 模 型 之 前 和 使 用 机 需 
学 习 模 型 之 后 在 识别 错误 方面 的 效 采 。 

测试 集 容量 参数 0.2 表示 该 咀 数 将 80% 的 数据 作为 训练 DataFrame， 将 20% 的 数据 作为 验证 
DataFrame。 如 果 要 将 数据 集 分 为 训练 数据 和 验证 数据 , 你 通常 会 将 70% 的 数据 作为 训练 集 , 20% 
的 数据 作为 测试 集 ，10% 的 数据 作为 验证 集 。 对 于 本 章 中 的 数据 集 ， 你 只 是 将 数据 分 为 训练 集 和 
测试 集 ， 因 为 在 Brett 的 数据 中 没有 验证 数据 。 


代码 清单 5-9 创建 训练 集 和 验证 集 

















trarndfy val. dfy  ,. Sr EraLn Cest. SODLLEN 

encoded_df, 

encoded df|['Error'], 

ee 创建 训练 集 和 验 

random_ state=0) 证 集 辣 展示 训练 数据 的 
人 行 数 

f'{train df.shape[l0]} rows in training data') 





这 样 ， 数 据 就 在 SageMaker 会 话 中 ， 而 你 可 以 开始 训练 模型 了 。 
5.8.4 ”第 四 部 分 : 训练 模型 


在 代码 清单 5-10 中 ， 你 导入 了 RandomCutForest 了 数 ， 设 置 训 练 参 数 ， 并 将 结果 存储 在 
名 为 CE 的 变量 中 。 除了 RandomCutForest 函数 中 的 最 后 两 个 参数 外 ， 所 有 这 些 看 上 去 与 前 
儿童 中 设置 训练 有 关 的 工作 非常 相似 。 

参数 num_samples_per_tree 设置 每 棵 树 包 含 多 少 样 本 。 从 图 中 来 看 ， 你 可 以 将 其 视 为 每 
棵 树 上 深 色 点 的 数量 。 如 果 每 棵 树 上 有 很 多 样本 , 那么 在 该 函数 创建 仅 包 含有 目标 点 的 分 文 前 ， 你 
的 树 会 变 得 非常 大 。 大 树 需 要 的 计算 时 间 比 小 树 长 。AWS 建议 你 从 每 棵 树 100 个 样本 开始 ， 
为 这 在 训练 速度 和 树 的 大 小 之 间 做 了 很 好 的 权衡 。 
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参数 num_trees 是 树 ( 深 色 点 组 ) 的 数量 。 此 参数 应 设置 为 近似 于 预期 的 错误 分 数 。 在 你 
的 数据 集中 , 大约 2% ( 即 1/50 ) 是 错误 的 ， 因 此 你 将 树 的 数量 设置 为 50。 代码 清 单 5-10 中 的 最 
后 一 行 代码 将 训练 并 构建 模型 。 
代码 清单 5-10 ”训练 模型 


from sagemaker import RandomCutForest 





session = sagemaker.Sessionl() 


rcf = RandomCutForest (role=role, 
train instance count=1, 
train instance type='ml .m4 .xlarge', 
data_location=f's3://{data _ bucket}/{subfolder}/', 
output_ path=f's3://{data bucket}/{subfolder}/output', 


num samples per tree=100, es 有 
num_ trees=20) 每 棵 树 包 售 的 

样本 数 
Pet tit (ret roord eltrar di To. vesmlt Ydesy, 树 的 数量 


5.8.5 ”第 五 部 分 : 部 署 模 型 
现在 ， 有 了 训练 好 的 模型 ， 可 以 将 其 部 署 在 SageMaker 上 ,以便 随时 进行 决策 。 如 果 你 已 运 


行 过 该 笔记 本 ， 则 可 能 已 有 了 一 个 冰点 。 为 了 解决 这 个 问题 ， 请 在 代码 清单 5-11 中 删除 所 有 现 
有 的 端点 ， 这 样 就 不 必 为 一 堆 未 使 用 的 端点 付费 了 。 


代码 清单 5-11 部署 模型 : 删除 现 有 的 端点 





endpoint name = 'suspicious-lines' Re a 
S 这 样 你 就 不 会 创建 元 余 的 
Y : 证 占 ”全 pL 
8 端点 ， 命 名 你 的 端点 
seas .delete endpointt 前 所 ， 命名 
sagemaker.predictor.RealTimePpredictor!l! a 
ee / / 删除 该 名 称 
endpoint=endpoint_name) .endpoint) 现 有 的 端点 
print ( JJ 而 局 
'Warning: Existing endpoint deletedqd to make way for new endpoint.') 
except: 
pass 





接 下 来 , 在 代码 清单 5-12 中 创建 并 部 署 端点 。SageMaker 具有 高 度 可 扩展 性 , 可 以 处 理 非 常 
大 的 数据 集 。 对 于 本 书 中 使 用 的 数据 集 ， 你 只 需要 一 台 包 .medium 机 需 即 可 部 署 你 的 端点 。 





代码 清单 5-12 ”部 署 模型 : 设置 机 需 性 能 


rcf endpoint = rcf.deplo Hg Si 
ee 部 署 端点 的 
jnitial instance count=1, og wr 
| . 机 怖 数量 
instance_ type='ml .tt2.medium' 
) 机 器 性 能 


现在 ， 你 需要 设置 代码 ， 以 从 端点 获取 结果 ， 并 将 其 转换 为 易于 使 用 的 格式 ， 如 代码 清单 
5-13 所 示 。 
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代码 清单 5-13 ”部 加 模型 : 转换 为 易于 使 用 的 格式 


from sagemaker.predictor import csv_serializer, JjJson deserializer 


rcf_ endpoint.content type = 'text/csyv'! 

rcf _ endpoint.serializer = CSV_ serializer 

rcf endpoint.accept = 'application/json' 

rcf_ endpoint.deserializer = JjJson deserializer 





5.8.6 ”第 六 部 分 : 测试 模型 


现在 , 可 以 基于 验证 数据 来 计算 异常 , 如 代码 清单 5-14 所 示 。 这 里 使 用 val_df_no_result 
数据 集 , 因 为 它 不 包含 EBrror 列 (就 像 训练 数据 中 不 包含 Error 列 一 样 ), 然 后 ,创建 scores_af 
DataFrame， 以 保存 rcf_endpoint .predict 函数 返回 的 数值 型 结 来 。 接 着 , 将 scores_qf 
DataFrame 与 val_af DataFrame 合并 在 起， 以便 查 看 随机 裁剪 森林 算法 对 应 每 一 行 训练 数据 
的 分 数 。 


代码 清单 5-14 在 验证 数据 中 添加 scores 列 


results = rcf_ endpoint .predqict ( 从 MT 用 结果 创建 一 个 
val_ df no result.values) DataFrame 中 得 到 结果 新 的 DataFrame 
scores df = pd.DataFrame (results['scores'l]) 








val_df = val df.reset_ index (drop=True) , 
rnlts dF = -batoncaen 重 置 val_af DataFrame 


[val _ df, scores df], axis=1) 的 索引 ， 使 其 从 0 开始 
results df['Error'|] .value _ counts ( ) 
四 将 val_qdf DataFrame 和 scores df 
展示 val df DataFrame DataFrame 中 的 列 连 接 
有 多 少 异 常 记 录 
为 了 合并 数据 , 我 们 使 用 了 代码 清单 5-14 中 pandas 的 concat 函数 。 该 函数 使 用 DataFrame 
的 索引 合并 了 两 个 DataFrame。axis 参数 如 果 为 0， 则 将 连接 行 ; 如 果 为 1， 则 将 连接 列 。 
因为 我 们 刚刚 创建 了 scores_qf DataFrame， 所 以 行 的 索引 从 0 开始 ， 一 直到 21 192 (因为 
val_df DataFrame 和 scores_df DataFrame 有 21 193 行 )。 然 后 ， 我 们 重 置 val_df DataFrame 
的 索引 , 使 其 也 从 0 开始 。 这 样 ， 当 我 们 连接 DataFrame 时 ，scores 列 的 值 会 与 val_df DataFrame 
中 正确 的 行 对 齐 。 
可 以 从 代码 清单 5-15 中 看 到 ， 验 证 集 (val_df ) 中 有 20791 条 正确 的 记录 ， 有 402 条 错误 
的 记录 (根据 val_dqf DataFrame 中 的 Error 0) 。 


代码 清单 5-15 ”查看 错误 的 行 数 


Fal 20791 x A 
人 没有 包含 错 
True 402 \ 口 4/ 一 
误 的 行 


Name: Error, dtype: int64 
包含 错误 的 行 


Brett 相信 ， 他 和 他 的 团队 发 现 了 律师 事务 所 所 犯 大 约 一 半 的 错误 ,这 是 以 让 银行 督促 律师 的 
行为 : 准确 计 费 。 这 是 因为 他 们 知道 , 如 来 不 这 么 做 , 他 们 就 会 被 要 求 提 供 额 外 的 发 票证 明 信 息 。 
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要 找 出 前 半 部 分 错误 记录 的 分 数 ， 请 使 用 pandas 的 median 困 数 来 展示 有 错误 记录 的 中 
位 数 ， 然后 创建 一 个 results above cutoff DataFrame 来 保存 结果 ， 如 代码 清单 5-16 所 示 。 
要 确认 中 位 数 ， 可 以 查看 DataFrame 中 Error 列 的 信 来 确定 DataFrame 有 201 行 (val_qf 
DataFrame 中 错误 记录 总 数 的 一 半 )。 

代码 清单 5-16 将 计算 分 数 大 于 中 位 数 分 数 的 行 数 。 


代码 清单 5-16 ”计算 分 数 大 于 1.5( 中 位 数 分 数 ) 的 行 数 





得 到 results df DataFrame 





score_cutoff = results_dfl 2 
results_ df['Error'] == Truel]['score'] .median() 的 中 位 数 分 数 

print (f'Score cutoff: {score cutoff}') 

results above cutoff = results dflIl 创建 一 个 名 为 results_above_cutoff 
regults df["sgcore'] > :SCOre cuUtoOfF] 的 新 DataFrame， 其 中 包含 分 数 大 于 


展示 results above cu 


DataFrame 的 行 数 
代码 清单 5-17 展示 了 高 于 中 位 数 的 真实 错误 记录 数 和 误 报 记录 数 。 
代码 清单 5-17 查看 误 报 数 
Score cutoff: 1.58626156755 仅 检 查 得 分 大 于 
1.586 的 发 票 项 


eo en en ee Error 列 为 True 的 中 位 数 分 数 的 记录 
toff 











True 201 

Palse 67 返回 超过 闭 值 的 201 条 发 票 
返回 超过 闭 值 的 67 条 发 票 项 , | 。 | 项， 这些 发 票 项 是 有 误 的 
这 些 发 票 项 被 识别 为 有 误 ， 但 
事实 并 非 如 此 


因为 你 正在 查看 Error 列 的 value_counts， 所 以 还 可 以 看 到 不 包含 错误 的 67 行 记录 , 你 
将 问 询 律师 事务 所 。Brett 告诉 你 ， 这 比 他 的 团队 通常 得 到 的 命中 率 高 。 有 了 这 些 信息 ， 你 就 可 
以 用 两 个 关键 指标 来 描述 模型 的 性 能 。 这 两 个 关键 指标 是 召回 率 和 精确 率 。 

口 召回 率 是 正确 识别 出 的 有 误 发 票 项 数量 占 所 有 有 误 发 票 项 数量 的 比例 。 

口 精 确 率 是 正确 识别 出 的 有 误 发 票 项 数量 占 所 有 预测 为 有 误 发 暴 项 数量 的 比例 。 

通过 例子 更 容 多 理解 这 些 概念 。 分 析 中 的 关键 数值 可 以 让 你 计算 吾 回 率 和 精确 率 , 如 下 所 示 。 

口 验证 集中 有 402 条 错误 记录 。 

口 你 设置 了 一 个 国 伍 ， 以 识别 律师 事务 所 提交 的 一 半 有 误 发 票 项 (201 得 。 

口 在 这 个 国 值 基础 上 ， 你 误 认 为 67 条 正确 的 发 票 项 是 有 误 的 。 

人 吾 回 率 是 识别 出 的 错误 数 除 以 错误 总 数 。 由 于 我 们 决定 使 用 中 位 数 来 确定 国 值 , 因此 召回 率 
始终 为 50%。 

精确 率 是 正确 识别 的 错误 数 除 以 预测 的 错误 总 数 。 预 测 的 错误 总 数 为 268， 即 201+67。 精确 
率 为 201/268， 即 75%。 

现在 你 已 经 定义 了 国 值 ,你 可 以 在 results_aqf DataFrame 中 设置 一 列 ， 该 列 将 得 分 超过 国 
值 的 行 设 置 为 True， 将 得 分 低 于 国 值 的 行 设 置 为 false， 如 代码 清单 5-18 所 示 。 
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代码 清单 5-18 用 pandas DataFrame 来 展示 结 


restilte dt "Prediction’'] 3. 得 分 大 于 阅 值 时 ,将 
results_df['score'] > score_cutoff Prediction 列 的 值 
eeulty dF headrf) 设置 为 True 
展示 结果 


现在 ， 数 据 集 将 展示 验证 集中 每 个 发 票 项 的 结 
练习 : 
(1) val_dqf 数据 集 的 第 356 行 得 分 是 多 少 ? 
(2) 你 如 何 将 这 一 行 提 交 给 预测 函数 ， 仅 返回 该 行 的 得 分 ? 
5.9 删除 病 点 并 停止 笔记 本 实例 
停止 笔记 本 实例 并 删除 端点 很 重要 。 我 们 不 希望 你 因 未 使 用 的 SageMaker 服务 而 付费 。 





5.9.1 删除 端点 


附录 D 描述 了 如 何 使 用 SageMaker 控制 台 停 止 笔记 本 实例 并 删除 端点 ， 或 者 你 也 可 以 使 用 
代码 清单 5-19 中 的 代码 来 执行 此 操作 。 


代码 清单 5-19 ”删除 端点 
# 删除 端点 (可 选 ) 
# 如 果 和 希望 端点 在 单 击 Run All 后 继续 存在 ， 请 将 该 单元 格 注释 掉 


sagemaker.Session() .delete endpoint (rcf endpoint.endpoint) 


要 删除 端 丰 , 请 取消 代码 清单 中 的 代码 注释 ,然后 单 击 Ctrl+Enter 组 合 键 运行 单元 格 中 的 代码 。 














5.9.2 ”停止 笔记 本 实例 


要 停止 笔记 本 ， 请 返回 打开 SageMaker 的 浏览 需 选 项 卡 。 单 击 Notebook instances 荣 单 项 以 
查看 所 有 笔记 本 实例 。 选 择 笔 记 本 实例 名 称 旁 边 的 单 选 按钮 ( 如 图 5-16 所 示 ), 然后 单 击 Actions 
菜单 上 的 Stop。 停 止 操 作 需 要 几 分 钟 。 











Amazon SageMaker Notebook instances 


Notebook instances 


Open Jupyter 


Q Search notebook instances 功 ， 选择 Stop 
Open JupyterLab 


Name 可 Instance Creation time 时 Stop 


选 按钮 一 六 OO mlforbusiness-ch02 ml.t2.large May 21, 2018 11:29 UTC Add/Edit tags 








图 5-16 停止 笔记 本 
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5.10 ”检查 以 确保 妆 点 已 被 删除 


如 果 你 没有 用 笔记 本 删除 端点 〈 或 者 只 想 确 保 端 点 已 被 删除 )， 则 可 以 从 SageMaker 控制 台 
执行 此 操作 。 要 删除 端点 ， 请 单 击 端点 名 称 左 侧 的 单 选 按钮 ， 然 后 单 击 Actions 沫 单项 ， 接 独 在 
出 现 的 菜单 中 单 击 Delete。 

成 功 删 除 端 点 后 ， 你 将 不 再 为 此 支付 AWS 费用 。 当 你 在 Endpoints 页 面 底 部 看 到 “There are 
currently no resources” 时 ， 可 以 确认 所 有 端点 已 经 删除 ， 如 图 5-17 所 示 。 


Amazon SageMaker Endpoints 
Endpoints Create endpoint 
Q Search endpoints 1 全 
Name 刀 ARN Creation time  。 殖 Status 甩 Last updated 


There are currently no resources. 和 一 、 一 疹 点 已 成 功 删除 


图 5-17 确认 你 已 成 功 删除 端点 
Brett 的 团队 现在 可 以 处 理 从 律师 那里 收 到 的 每 张 发 票 ， 并 在 几 秒 钟 内 确定 是 否 应 该 问 询 发 
票 。 下面 Brett 的 团队 可 以 专注 于 评 佑 律师 事务 所 对 他 们 问 询 的 答复 是 否 合理 ， 而 不 必 关 注 是 否 
应 该 问 询 发 票 。 这 样 一 来 ，Brett 的 团队 就 可 以 用 同样 的 精力 处 理 更 多 的 发 票 。 

















5.11 小 结 


口 确定 你 的 算法 尝试 达到 的 目标 。 在 本 章 Brett 的 案例 中 ， 该 算法 无 须 识别 每 条 有 误 的 发 票 
项 ， 而 只 需 识别 出 足够 的 发 票 项 以 促使 律师 事务 所 合 规 行动 。 

口 合成 数据 是 分 析 师 创建 的 数据 ， 而 不 是 现实 世界 中 的 真实 数据 。 好 的 真实 数据 集 通 第 比 
合成 数据 更 有 趣 ， 因 为 它 更 加 微妙 。 

口 无 监督 机 如 学 习 可 用 于 解决 没有 任何 训练 数据 的 问题 。 

口 监督 算法 和 无 监督 算法 的 区 别 在 于 ， 你 无 须 癌 无 监督 算法 提供 任何 标注 的 数据 。 你 只 需 
有 要 提 供 数 据 ， 然 后 算法 就 会 决定 如 何 解 该。 

口 异 间 是 不 寻 稼 的 数据 点 。 

D 随机 裁 勇 秩 林 算 法 可 用 于 解决 识别 卉 种 所 再来 的 回 有 挑 万 。 

口 吾 回 凌 和 精确 率 是 用 来 摘 述 模型 性 能 的 两 个 关键 指标 。 























预测 你 公司 的 每 月 能 耗 





本 草 要 点 

口 准备 数据 用 于 时 间 序 列 分 析 

口 在 Jupyter 笔记 本 中 可 视 化 数据 
口 使 用 神经 网 络 进行 预测 

口 使 用 DeepAR 预测 能 耗 








Kiara 在 一 家 雪 售 连锁 店 工作 , 该 连锁 店 在 全 国 48 个 地 区 虱 设 有 分 支 机 构 。 她 是 一 名 工程 师 ， 
每 个 月 ， 她 的 老板 都 会 问 她 下 个 月 的 能 耗 。Kiara 按照 前 任 工 程 师 教 给 她 的 流程 ， 查 看 了 去 年 该 
月 公司 的 能 耗 ， 根 据 分 文 机 构 数目 的 变化 进行 加 权 ,， 并 将 结 末 提供 给 老板 。 她 的 老板 将 这 次 预算 
发 送 给 设施 管理 团队 ， 以 帮助 他 们 制订 活动 计划 ， 然 后 交 给 财务 部 门 预测 文 出 。 问 题 是 ，Kiara 
的 估算 通 和 党 是 错 的 ， 有 了 时 还 差 得 很 多 。 

作为 工程 师 ， 她 认为 必须 要 有 更 好 的 办 法 来 解决 这 个 问题 。 本 章 将 使 用 SageMaker 来 帮助 
Kiara 更 好 地 佑 计 公 司 未 来 的 能 耗 。 


6.1 你 在 决策 什么 


本 章 介 绍 的 内 容 与 你 在 前 面 各 章 中 所 看 到 的 不 同 。 在 前 面 的 章节 中 , 你 使 用 了 监督 机 句 学 习 
算法 和 无 监督 机 器 学 习 算 法 来 进行 决策 ， 了 解 了 每 种 算法 的 工作 原理 ， 然 后 将 算法 应 用 于 数据 。 
本 草 将 使 用 神经 网 络 来 预测 Kiara 公司 下 个 月 的 能 耗 。 

直观 地 理解 神经 网 络 比 理解 我 们 到 目前 为 止 介绍 的 机 需 学 习 算 法 都 要 困难 。 本 章 并 不 打算 让 
你 深入 了 解 神 经 网 络 ， 而 是 将 重点 放 在 如 何 解释 神经 网 络 的 输出 上 。 无 须 了 解 神经 网 络 的 理论 ， 
你 就 能 知道 如 何 使 用 神经 网 络 来 预测 时 间 序 列 事件 以 及 如 何 解 释 预测 结果 ,你 也 无 须 了 解 神经 网 
络 的 工作 原理 ， 而 是 学 习 如 何 使 用 神经 网 络 。 

图 6-1 展示 了 从 2018 年 10 月 中 旬 到 11 月末 的 6 周 时 间 里 ，Kiara 给 出 的 一 个 分 文 机 构 的 预 
测 能 耗 与 实际 能 耗 之 间 的 关系 。 该 分 六 机 构 的 模式 以 周 为 周期 进行 重复 , 在 工作 日 使 用 量 较 高 而 
在 星期 日 下 降 得 非常 多 。 
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2018 


图 6-1 ”Kiara 的 一 个 分 支 结 构 在 2018 年 11 月 的 预测 能 耗 与 实际 能 耗 





阴影 区 域 显示 了 Kiara 的 预测 范围 ， 准 确 度 为 80%。Kiara 计算 其 预测 平均 误差 时 ,结果 为 5.7%， 
这 意味 着 对 于 任何 预测 值 , 误差 很 可 能 在 5.7% 以 内 。 使 用 SageMaker, 你 可 以 完成 所 有 这 些 操作 
而 无 顷 深 入 了 解 神 经 网 络 的 实际 功能 。 而 且 ， 在 我 们 看 来 ， 这 完全 可 以 。 

要 了 解 如 何 将 神经 网 络 用 于 时 间 序 列 预 测 ， 你 首先 需要 了 解 时 间 序 列 预测 问题 玉手 的 原因 。 
了 解 了 这 一 点 后 ,你 将 了 解 什么 是 神经 网 络 以 及 如 何 将 神经 网 络 应 用 于 时 间 序 列 预 测 。 然 后 局 动 
SageMaker， 你 就 会 看 到 它 在 真实 数据 上 的 效果 。 














注意 本 章 使 用 的 能 耗 数据 由 BidEnersgy 提供 , 它 是 一 家 专门 从 事 能 耗 预测 与 最 大 化 节约 能 耗 的 
公司 。BidEnergy 使 用 的 算法 比 本 章 介 绍 的 更 复杂 ， 但 你 将 了 解 一 般 的 机 器 学 习 (尤其 是 
神经 网 络 ) 如 何 应 用 于 预测 问题 。 


6.1.1 ”时间 序列 数据 介绍 


时 间 序 列 数 据 由 特定 时 间 间 隅 的 多 个 观测 值 组 成 。 例 如 , 如 果 你 创建 了 一 个 体重 的 时 间 序 列 ， 
那么 可 以 在 一 年 中 每 个 月 的 第 一 天 记录 体重 。 你 的 时 间 序 列 将 包含 12 个 观测 值 ， 每 个 观测 值 都 
有 一 个 数值 。 表 6-1 展示 了 时 间 序 列 数 据 的 样子 。 


表 6-1 时 间 序 列 数据 展示 了 我 ( 道 格 ) 过 去 一 年 的 体重 ， 以 干 克 ‘kg) 为 单位 











Date Weight (kg) 
2018-01-01 75 
2018-02-01 了 汉 
2018-03-01 72 
2018-04-01 7 
2018-05-01 72 
2018-06-01 7 
2018-07-01 了 
2018-08-01 7 
2018-09-01 70 
2018-10-01 69 
2018-11-01 72 
2018-12-01 74 
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查看 数据 表 很 无 聊 。 当 数据 以 表格 形式 展示 时 ,很 难 真正 理解 数据 。 折 线 图 是 查看 数据 的 最 
佳 方式 。 图 6-2 以 折线 图 的 形式 展示 了 相同 的 数据 。 





75 — Me 


an Feb Mar Apr May Jun Jul Ag Sep OQct Nov Dec 
2018 
month 
图 6-2 ”折线 图 显示 了 相同 的 时 间 序 列 数据 ， 展 示 了 我 过 去 一 年 的 体重 
( 以 千克 为 单位 ) 
可 以 看 到 ， 在 该 时 间 序 列 中 , 日 期 在 左边 , 我 的 体重 在 右边 。 例 如 ， 如 果 要 记录 整个 家 庭 的 

体重 时 间 序 列 ， 则 可 以 为 每 个 家 庭 成 员 添 加 一 列 。 在 表 6-2 中 ， 可 以 看 到 一 年 中 我 的 体重 以 及 我 
的 每 个 家 庭 成 员 的 体重 。 




















表 6-2 ”时间 序列 数据 展示 了 过 去 一 年 我 的 家 庭 成 员 的 体重 以 干 克 为 单位 ) 


Date Me Spouse Chilqd 1 Child 2 
2018-01-01 es 52 38 67 
2018-02-01 73 52 39 68 
2018-03-01 > 53 40 65 
2018-04-01 71 53 41 63 
2018-05-01 72 54 42 64 
2018-06-01 71 54 42 65 
2018-07-01 70 55 42 65 
2018-08-01 73 SS 43 66 
2018-09-01 70 56 44 65 
2018-10-01 69 5:7 45 66 
2018-11-01 72 57 46 66 
2018-12-01 74 Sr 46 66 











而 且 , 一 旦 有 了 表 6-2， 就 可 以 将 数据 可 视 化 为 4 张 单独 的 图 ， 如 图 6-3 所 示 。 
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74 56 
i 
0 72 
三 5 54 
70 53 
52 
46 68 
44 6b7 
oN 9 6566 
王 42 3 
6 W 6 
0 64 
38 63 
jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec an Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 
2018 2018 
month month 





图 6-3 折线 图 显示 了 相同 的 时 间 序 列 数据 ， 该 数据 展示 了 过 去 一 年 中 家 庭 成 员 的 体重 
(以 千克 为 单位 ) 


你 将 在 本 章 和 下 一 章 中 看 到 这 种 格式 的 图 表 。 这 是 一 种 简明 地 展示 时 间 序 列 数据 的 常见 格式 。 
6.1.2 ”Kiara 的 时 间 序 列 数 据 : 每 日 能 耗 


能 耗 数据 的 展示 方式 与 我 们 的 体重 数据 相似 。Kiara 的 公司 有 48 个 不 同 的 业务 分 文 机 构 ( 零 
售 店 和 仓库 )， 因 此 ， 编 制 数 据 时 每 个 分 文 机 构 和 都 有 目 己 的 列 。 每 个 观测 值 都 是 该 列 中 的 一 个 单 
元 格 。 表 6-3 展示 了 本 章 中 使 用 的 电量 数据 样本 。 


表 6-3 以 30 分 钟 作为 间隔 ，Kiara 公司 的 能 耗 数据 样本 

















Time Site 1 Site 2 Site 3 Site 4 Site 5 Site 6 
2017-11-01 00:00:00 13.30 L133 11.68 13 .02 0 .0 102 .9 
2017-11-01 00:30:00 1 .735 11 .9 12.63 13.36 0.0 1 22..1 
2017-11-01 01:00:00 12.58 11.4 11.86 13.04 0.0 110.3 





该 数据 类 似 于 表 6-2 中 的 数据 ， 该 表 展 示 了 每 个 家 庭 成 员 每 月 的 体重 。 不 同 的 是 ,在 Kiara 
的 数据 中 ， 每 一 列 代表 其 公司 的 分 文 结构 (零售 店 或 仓库 )， 而 不 是 有 家庭 成 员 。Kiara 的 数据 中 
一 行 代 表 每 个 分 文 结构 当天 使 用 的 电量 ， 而 不 是 家 庭 成 员 每 个 月 第 一 天 的 体重 。 

既然 你 已 了 解 了 如 何 表 示 和 可 视 化 时 间 序 列 数据 ， 那 么 就 可 以 用 Jupyter 笔记 本 来 可 视 化 这 
些 数据 了 。 


6.2 ”加 载 处 理 时 间 友 列 数 据 的 Jupyter 笔记 本 
为 了 帮助 你 了 解 如 何在 SageMaker 中 展示 时 间 序 列 数据 ， 这 是 本 书 第 一 次 使 用 没有 包含 
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SageMaker 机 和希 学 习 模型 的 Jupyter 笔记 本 。 至 运 的 是 , 由 于 SageMaker 环境 只 是 一 个 简单 的 、 用 
于 访问 SageMaker 模型 的 标准 Jupyter 笔记 本 服务 咒 ， 因 此 你 也 可 以 使 用 SageMaker 运行 普通 的 
Jupyter 笔记 本 。 首 先 ， 下 载 并 保存 Jupyter 笔记 本 。 

将 其 上 传 到 前 面 章 市 所 使 用 的 SageMaker 环境 中 。 就 像 前 面 章 节 中 所 做 的 那样 ， 你 将 在 
SageMaker 上 设置 笔记 本 。 如 果 你 跳 过 了 前 面 的 草 闻 ， 请 按照 附录 C 中 有 关 如 何 设置 SageMaker 
的 说 明 进 行 操 作 。 

当 你 跳 转 到 SageMaker 界面 时 ， 会 看 到 你 的 笔记 本 实例 。 你 为 前 几 音 创建 的 笔记 本 实例 (或 
按照 附录 C 中 的 说 明 刚 刚 创建 的 笔记 本 实例 ) 将 显示 Open 或 者 Start。 如 果 显 示 Start, 单 击 Start 
链接 ， 人 然后 等 待 几 分 钟 ， 以 便 SageMaker 启动; 如 果 显 示 Open Jupyter， 请 单 击 该 链接 以 打开 笔 
记 本 列表 ， 如 图 6-4 所 示 。 








Amazon SageMaker Notebook instances 


Notebook instances 


Q Search notebook instances 1 他 选择 
; 择 
Open Jupyter 





Name 时 Instance Creation time 时 Status v Actions 


mlforbusiness-ch02 ml.t2.large May 21, 2018 11:29 UTC © InService Open Jupyter | Open JupyterLab 


图 6-4 查看 笔记 本 实例 列表 


单 击 New 并 在 下 拉 列 表 底 部 选择 Folder， 为 第 6 章 创 建 一 个 新 文件 夹 ， 如 图 6-5 所 示 。 这 将 
创建 一 个 名 为 Untitled Folder 的 新 文件 夹 。 





i J U pyte 『 Open JupyterLab Quit 


1. 选择 New 
Files Running Clusters Examples Conda SS 


Select items to perform actions on them. Upload | Newv| > 


Sd R (Beta) E 

D © eho2 Sparkmagic (PySpark) 

DD OD lost+found conda_mxnet_p36 

品 OD sample-notebooks conda_python2 
conda_python3 
conda_pytorch_p27 
conda_pytorch_p36 
conda tensorflow_p27 


conda tensorflow_p36 


Folder A—— 2. 选择 
Folder 


Terminal 





图 6-5 在 SageMaker 中 创建 一 个 新 文件 夹 
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要 重 命 名 文件 夹 ,请 勾 选 Untitled Folder 劳 边 的 复 选 枉 ，Rename 按钮 就 会 出 现 。 单 击 它 并 将 
名 称 改 为 ch06。 单 击 ch06 文件 夹 , 你 将 看 到 一 个 空白 的 笔记 本 列表 。 单 击 Upload 将 time_series 
practice.ipynb 笔记 本 上 传 到 该 文件 来 。 

上 传 文件 后 , 你 会 在 列表 中 看 到 该 笔记 本 。 单 击 笔记 本 将 其 打开 , 现在 可 以 使 用 time _series_ 
practice 笔记 本 了 了。 但 在 设置 该 笔记 本 的 时 间 序 列 数据 之 前 ， 让 我 们 先 来 看 看 有 关 时 间 序 列 分 析 
的 一 些 理论 和 实践 。 


6.3 准备 数据 集 : 绘制 时 间 序 列 数据 


Jupyter 笔记 本 和 pandas 库 是 处 理 时 间 序 列 数据 的 绝 佳 工具 。 在 本 章 后 面 创建 的 SageMaker 
神经 网 络 笔记 本 中 , 你 将 使 用 pandas 和 名 为 Matplotlib 的 数据 可 视 化 库 来 为 神经 网 络 准备 数据 并 
分 析 结 果 。 为 了 帮助 你 了 解 神经 网 络 工作 原理 , 你 将 使 用 时 间 序 列 笔 记 本 , 该 笔记 本 可 直观 地 展 
示 一 年 中 4 个 人 的 体重 。 

要 使 用 Jupyter 笔记 本 可 视 化 数据 ， 你 需要 做 一 些 设置 。 如 代码 清单 6-1 所 示 ， 首 先 需 要 告 
诉 Jupyter 你 打算 在 笔记 本 中 展示 一 些 图 表 。 可 以 使 用 smatplot1ib inline 代码 行 来 执行 此 操 
作 ， 如 代码 清单 6-1 第 1 行 所 示 。 


代码 清单 6-1 展示 图 表 
































将 Matplotlib 功能 





Se tolotliis Ti 加 载 到 Jupyter 
matplotlib inline 导入 pandas 库 以 
import pandas as pd 处 理 数 据 
import matplotlib.pyplot as plt Te Matplotlib 库 

以 展示 图 表 


Matplotlib 是 一 个 Python 绘图 库 ， 但 可 供 你 选择 的 Python 绘图 库 还 有 许多 。 我 们 选择 
Matplotlib 是 由 于 它 可 以 在 Python 标准 库 中 使 用 ， 并 且 对 于 简单 的 需求 ， 它 易于 使 用 。 

第 1 行 以 % 符 号 开头 是 因为 该 行 是 对 Jupyter 的 指令 ， 而 不 是 代码 行 。 它 会 告诉 Jupyter 笔记 
本 你 要 展示 网 表 ， 因 此 要 加 载 软件 在 笔记 本 中 执行 ， 这 被 称 为 魔术 命令 (magic command )。 














魔 木 命令 : 真 的 是 魔术 吗 


如 代码 清单 6-1 所 示 , 在 将 Matplotlib 功 能 加 载 到 Jupyter 笔 记 本 中 后 ,你 随后 导 人 了 库 :pandas 
和 Matplotlib。( 请 记 住 ， 在 代码 清单 第 1 行 中 ， 你 引入 了 smatplotlib inline， 但 没有 导入 
Matplotlib 库 ; 在 第 3 行 ， 你 导入 了 该 库 。) 

导入 相关 库 后 ， 你 需要 获取 一 些 数据 。 前 几 章 使 用 SageMaker 时 ， 我 们 从 S3 加 载 了 数据 。 
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对 于 该 笔记 本 来 说 ， 由 于 你 只 是 在 学 习 用 Pandas 和 Jupyter 笔记 本 进行 数据 可 视 化 的 有 关 知 识 ， 
所 以 只 需 创 建 一 些 数 据 并 将 其 发 送 到 pandas DataFrame， 如 代码 清单 6-2 所 示 。 


代码 清单 6-2 输入 时 间 序 列 数据 


my_weight = 


{'month': 
'month": 
'month': 
'month': 
'month': 
'month': 
'month"'s 
"monmnth" 
'month': 
'month': 
'month': 
'month': 


将 DataFrame 的 索引 
df = pd.DataFrame (my_weight) .set_index('month') 设置 为 时 间 序 列 


pd.to_datetime (df.1index) 








一 一 一 一 一 一 一 一 一 一 一 


] 





df.index = 
df.head() 


现在 ， 这 才 是 真正 的 魔术 所 在 。 要 展示 图 表 ， 你 需要 做 的 就 是 在 Jupyter 笔记 本 单元 格 中 键 


入 以 下 行 : 


df .plot() 


el 为 图 6-1 中 的 数据 


区 


be 7D} 














© sh 
"2018=02=01",， "Me': 7313, 创建 数据 集 
2018=03=01", “MET .721, 
'2018-04-01', 'Me': 71}, 
'2018-05-01' 'Me': 72}, 
'2018-06-01' 'Me': 71}, 
'2018-07-01' 'Me': 70}, 
'2018=08=01! 'Me': 73}, 
'2018-09-01', 'Me': 70}, 
'2018-10-01', 'Me': 69)， 将 数据 集 转换 为 
有 pandas DataFrame 
'2018-12-01', 'Me': 74} 


“ | 展示 数据 集 的 前 5 行 





Matplotlib 库 从 代码 清单 6-2 第 3 行 中 设置 的 索引 类 型 识别 出 该 数据 是 时 间 序 列 数据 ,所 以 起 
作用 了 。 真 神奇 ! df .plot () 命 令 的 输出 如 图 6-6 所 示 。 


7 En，- 
74 
73 
72 
1 
70 
69 
an Feb Mar Apr May Jun Jul Ag Sep Oct Nov Dec 


2018 
month 








图 6-6 af.plot () 返 回 的 时 间 序 列 数据 ， 展 示 了 我 过 去 一 年 的 体重 ( 以 千克 为 单位 ) 
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要 将 数据 扩展 到 每 个 家 庭 成 员 的 体重 ,你 首先 需要 设置 数据 。 代 码 清单 6-3 展示 了 将 数据 扩 
展 到 每 个 家 庭 成 员 的 数据 集 。 


代码 清单 6-3 ”为 每 个 家 庭 成 员 输 入 时 间 序 列 数 据 






































fam11y welght = | 
Cimon OL Otel Mees 7 ToDoUusey "07, 创建 每 个 人 每 月 的 
"em Tne 9, Ch .2's 38., 体重 数据 集 
{'month': '2018-02-01', 'Me': 73， 'spouse': 68, 
On 2. VE ZT G9. 
{'month': '2018-03-01', 'Me': 72, 'spouse': 65， 
"eh 1 53, “Gh 2" 403}, 
{'month': '2018-04-01', 'Me': 71, 'spouse': 63, 
eh sy EN 
{month's 2018=05-01"; "Me': "2, “espouse'® 64， 
"Ee Eh 2 2 
{'month': '2018-06-01', 'Me': 71, 'spouse': 65, 
Ch ds Dd; “Leh, 2"8 Hd2, 
{'month': '2018-07-01', 'Me': 70, 'spouse': 65, 
Gd Do UE 2s dy 
{'month': '2018-08-01', 'Me': 73, 'spouse': 66, 
人 
{'month': '2018-09-01', 'Me': 70, 'spouse': 65, 
"Eh "Ss SO0, "OR" :449 
{'month': '2018-10-01', 'Me': 69, 'spouse': 66, 
"ON 3 ED 2"% dD}; 
{'month': '2018-11-01', 'Me': 72, 'spouse': 66, 
"on. J 7 TON 2 -46}, 
{'month': '2018-12-01', 'Me': 74, 'spouse': 66, 
"Eh J Sf ‘VE 2 
] 
df2 = pd.DataFrame ( 将 数据 集 转换 为 





faml1y _ weight) .set_index('month') pandas DataFrame 


df2.index = pd.to datetime (df2.index) 将 DataFrame 的 索引 


dt2., Headt) 设置 为 时 间 序 列 
展示 前 5 行 数据 


用 Matplotlib 展示 4 个 图 表 比 展示 一 个 图 表 复 杂 一 些 。 你 首先 需要 创建 一 个 显示 图 表 的 区 域 ， 
然后 需要 循环 遍历 数据 列 以 展示 每 列 数据 。 因 为 这 是 本 书 中 使 用 的 第 一 个 循环 , 所 以 我 们 将 对 其 
进行 详细 介绍 。 


6.3.1 通过 循环 展示 数据 询 


该 循环 被 称 为 for 循环 ， 这 意味 者 你 〈 通 稼 ) 会 提供 一 个 列表 ， 然 后 依次 过 历 列表 中 的 每 
个 元 素 。 这 是 你 将 在 数据 分 析 与 机 融 学 习 中 使 用 的 最 常见 的 循环 类 型 ， 因 为 你 再 要 循环 壳 历 的 大 
部 分 内 容 是 元 素 列 表 或 数据 行 。 

代码 清单 6-4 展示 了 标准 的 循环 方式 。 该 代码 清单 的 第 一 行 定 义 了 包 舍 3 个 元 素 (A、B 和 C ) 
的 列表 ， 第 2 行 代码 设置 了 循环 ， 第 3 行 代码 打印 了 每 个 元 系 。 
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代码 清单 6-4 ”循环 过 有 历 列表 的 标准 方法 


创建 一 个 名 为 
WM my_1list 的 列表 循环 遍历 my_list 
for item in my_list: 
a 打印 列表 中 的 
每 个 元 素 


运行 此 代码 将 打印 A、B 和 c， 如 代码 清单 6-5 所 示 。 
代码 清单 6-5 ”运行 循环 遍历 列表 的 命令 时 的 标准 输出 


人 A 
B 
C 


使 用 Matplotlib 创建 图 表 时 ， 除 了 循环 之 外 ， 你 还 需要 记 下 循环 的 次 数 。Python 有 一 个 不 错 
的 方法 : 枚 举 〈enumerate )。 

为 了 枚 举 列表 , 你 需要 两 个 变量 来 存储 循环 中 的 信息 并 包装 正在 循环 遍历 的 列表 。enumerate 
国 数 返回 两 个 这 样 的 变量 : 第 一 个 变量 是 记录 循环 的 次 数 ( 从 0 开始 ); 第 二 个 变量 是 列表 中 检 
索 到 的 元 兹 。 代 码 清单 6-6 展示 了 将 代码 清单 6-4 转换 为 枚 举 的 for 循环 。 


代码 清单 6-6 ”循环 中 枚 举 的 标准 方法 

















创建 一 个 名 为 循环 遇 历 my_1ist， 将 计数 
my_list = ['A', 'B', 'C'] my_list 的 列表 存储 在 变量 i 中 ， 并 将 列表 
for i, item in enumerate(my_list): 元 素 存 储 在 item 变量 中 
print (f'{i}. {item}') 打印 循环 计数 (从 0 开始 ) 
以 及 列表 中 的 每 个 元 素 





运行 此 代码 将 生成 与 代码 清单 6-5 中 相同 的 输出 ， 但 还 可 以 显示 出 在 列表 中 循环 的 次 数 。 要 
运行 代码 ， 请 单 击 单元 格 ， 然 后 按 Ctrl+Enter 组 合 键 。 代 码 清 单 6-7 显示 了 在 循环 中 使 用 
enumerate 测 数 的 输出 。 
代码 清单 6-7 ”循环 中 枚 举 的 输出 

0. 入 


1 有 B 
2 SC 


使 用 这 种 方法 ， 你 就 可 以 在 Matplotlib 中 创建 多 个 图 表 。 
6.3.2 创建 多 个 图 表 


在 Matplotlib 中 ， 你 可 以 使 用 subplots 功能 来 创建 多 个 图 表 。 要 用 数据 填充 子 图 ， 你 可 以 循 
环 轴 历 表 中 每 一 列 来 展示 每 个 家 庭 成 员 的 体重 ， 如 代码 清单 6-8 所 示 ， 以 及 展示 每 列 的 数据 。 

















6.3 ”准备 数据 集 : 绘制 时 间 序 列 数据 115 


代码 清单 6-8 ”绘制 每 个 家 性 成 员 时 间 序 列 数 据 的 图 表 


start_date = "2018-01-01" < | 设置 开始 日 期 
end_date = "2018-12-31" 
fig, axs = plt.subplotsl( 设置 结束 日 期 

2 


2 
0 创建 包含 4 个 图 表 确保 子 图 以 序列 的 
E ‘ ” SS \ NE ‘ 
0 0 

就 能 循环 遍历 它们 





axx = axS.ravel () 
for i, column in enumerate (af2 .columns) : 本 
于 、 2 \ 
df2[1aE2.00LlUmneslill .L160c[start dateend datel] .Blot1 2 


axx[i].set_ylabel (column) 数据 特定 列 
a 设置 x 轴 标签 


在 代码 清单 6-8 的 第 3 行 , 你 声明 要 展示 2 x 2 图 表 的 网 格 ， 其 宽 为 12 英寸 ”", 高 为 5 英寸 。 
这 将 在 2x2 的 网 格 中 创建 4 个 Matplotlib 对 象 ， 你 可 以 在 其 中 填充 数据 。 可 以 使 用 第 4 行 中 的 代 
码 将 2x2 的 网 格 转换 为 可 循环 志 历 的 列表 。 变 量 axx 存 储 了 Matplotlib 的 子 图 列表 ， 我 们 会 用 数 
据 对 其 进行 填充 。 

当 你 单 击 单元 格 并 按 CtrltEnter 组 合 键 在 单元 格 中 运行 代码 时 ,可 以 看 到 生成 的 图 表 ， 如 图 6-7 
所 不。 


ax=axx[i]) 
axx[i] .set xlabel ("month") 设置 图 表 以 展示 


start date = “2618-61-61” 

end_date = "2818-12-31" 

fig, axs = plt.subplots(2, 2, figsize=(12, 5), sharex=True) 

axx = axs.ravel() 

for i, column in enumerate(df2.columns): 
df2[df2.columns[i]].loc[start date:end date].plot(ax=axx[i]) 
axx[i].set xlabel("“"month") 
axx[i].set ylabel(column) 





74 56 
55 
7 人 
bs4 
70 53 
52 
46 68 
Eh 67 
J 66 
142 = 
6 员 65 
4 64 
38 63 
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2018 2018 
month month 





图 6-7 代码 生成 的 时 间 序 列 数据 ， 展 示 了 过 去 一 年 每 个 家 庭 成 员 的 体重 


QO@ 1 英寸 约 为 2.54 厘米 。 一 一 编者 注 
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到 目前 为 止 , 在 本 革 你 已 经 研究 了 时 间 序 列 数 据 , 学 习 了 如 何 循环 轴 历 数据 以 及 如 何 将 其 可 
视 化 。 下 面 你 将 了 解 为 什么 神经 网 络 是 预测 时 间 序 列 事件 的 好 方法 。 


6.4 神经 网 络 是 什么 


神经 网 络 ( 有 时 也 称 为 深度 学 习 ) 以 一 种 不 同 于 传统 机 需 学 习 模 型 (如 XGBoost ) 的 方式 来 
实现 机 器 学 习 。 尺 管 XGBoost 和 神经 网 络 都 是 监督 机 需 学 习 的 例子 ， 但 它们 分 别 使 用 不 同 的 工 
具 来 解决 问题 。XGBoost 使 用 多 种 方法 尝试 预测 目标 问题 的 结果 ， 而 神经 网 络 仅 使 用 一 种 方法 。 

神经 网 络 符 试 通过 使 用 相互 连接 的 神经 元 层 来 解决 问题 。 神 经 元 在 一 端 接收 输入 ,然后 从 另 
一 端 输出 。 神 经 元 之 间 的 连接 具有 权重 。 如 果 神 经 元 接收 到 足够 大 的 加 权 输 入 , 那么 它 将 发 出 信 
号 并 将 信号 输送 到 与 之 连接 的 下 一 层 神 经 元 。 


























定义 神经 元 只 是 一 个 数学 函数 ， 它 接收 两 个 及 两 个 以 上 的 输入 ， 对 输入 进行 加 权 处 理 ， 如 果 
加 权 结 果 大 于 某 个 阅 值 ， 则 将 结果 传递 到 多 个 输出 。 








假设 你 是 神经 网 络 中 的 一 个 神经 元 ， 目 的 是 根据 流言 的 真实 性 与 猎奇 性 进行 过 滤 。 有 10 个 
人 《相互 连接 的 神经 元 ) 告诉 你 流言 ， 如 果 它 足够 具有 猎奇 性 或 足够 芮 实 ， 又 或 者 兼 而 有 之 ， 你 
就 会 将 其 发 送 给 男 外 10 个 人 ， 否 则 就 把 它 烂 在 肚子 里 。 

还 可 以 假设 告诉 你 流言 的 一 些 人 不 是 很 值得 信任 ， 而 其 他 人 则 完全 诚实 。( 当 你 得 到 关于 尝 
言 是 否 真实 或 者 具有 猪 奇 性 的 反 饶 时， 你 对 来 源 的 可 信 程 度 可 能 会 改变 。) 你 可 能 不 会 传播 来 日 
最 不 值得 信赖 的 来 源 的 一 则 流言 , 但 如 果 是 最 值得 信赖 的 人 告诉 你 的 消息 , 哪怕 只 有 一 个 人 告诉 
你 ， 你 也 会 将 其 传播 出 去 。 

下 面 来 看 用 于 预测 能 耗 的 特定 时 间 序列 神经 网 络 算 法 。 
































什么 是 DeepAR 
DeepAR 是 Amazon 的 时 间 序 列 神经 网 络 算 法 ， 它 将 时 间 序 列 数据 相关 的 类 型 作为 输入 ， 
并 自动 将 数据 合并 为 数据 集中 所 有 时 间 序 列 的 全 局 模型 。 然后 , 它 用 该 全 局 模型 来 预测 未 来 事 
件 。 通 过 这 种 方式 ，DeepAR 能 够 将 不 同类 型 的 时 间 序 列 数据 ( 例如 能 耗 、 温 度 、 风 速 等 ) 合 
并 到 一 个 模型 中 ， 该 模型 在 我 们 的 示例 中 用 于 预测 能 耗 。 
本 章 将 向 你 介绍 DeepAR， 并 为 Kiara 构建 一 个 模型 ,该 模型 将 使 用 其 48 个 分 支 机 构 的 历 
史 数 据 。 第 7 章 将 结合 DeepAR 算法 的 其 他 功能 (例如 天 气 模式 ) 来 增强 预测 效果 。 


6.5 准备 构建 模型 


现在 ,对 神经 网 络 和 DeepAR 的 工作 原理 有 了 更 深入 的 了 解 ,你 可 以 在 SageMaker 中 设置 另 
一 个 笔记 本 并 进行 决策 。 就 像 在 前 面 章节 中 所 做 的 那样 ， 你 将 执行 以 下 操作 。 
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(1) 将 数据 集 上 传 到 S3。 

(2) 在 SageMaker 上 配置 笔记 本 。 
(3) 上 传 初始 笔记 本 。 

(4) 基于 数据 运行 。 


提示 “如 果 你 直接 阅读 本 章 ， 则 可 能 需要 参考 附录 ， 它 们 向 你 展示 了 如 何 执行 以 下 操作 。 
口 附录 A: 注册 AWS。 
口 附录 B: 设置 AWS 的 文件 存储 服务 S3。 
口 附录 C: 设置 SageMaker。 


6.5.1 将 数据 集 上 传 到 S3 


要 设置 本 章 的 数据 集 , 你 将 执行 与 附录 B 中 相同 的 步 又 。 不 过 无 须 设 置 其 他 存储 桶 ， 你 可 以 
用 之 前 创建 的 那个 存储 桶 。 在 示例 中 ,我 们 将 存储 桶 命名 为 mlforbusiness, 但 你 的 存储 桶 需要 一 
个 不 同 的 名 称 。 

进入 你 的 S3 账户 后 ， 你 会 看 到 存储 桶 列表 。 单 击 你 为 本 书 创建 的 存储 桶 ， 你 会 看 到 ch02、 
ch03 、ch04 和 ch05 文件 夹 (如 果 你 为 前 面 的 曹 节 创建 了 这 些 文件 夹 )。 在 本 章 中 ， 你 将 创建 一 个 
名 为 ch06 的 文件 夹 。 通 过 单 击 Create Folder 并 按照 提示 创建 新 文件 夹 。 

创建 文件 夹 后 ， 你 将 返回 到 存储 桶 中 的 文件 夹 列 表 。 在 那里 ， 你 会 看 到 一 个 名 为 ch06 的 文 
件 夹 。 

现在 已 经 在 存储 桶 中 设置 好 了 ch06 文件 夹 ， 你 可 以 上 传 数据 文件 并 开始 在 SageMaker 中 
设置 决策 模型 。 然后 通过 单 击 Upload 将 CSV 文件 上 传 到 ch06 文件 来。 下面 可 以 设置 笔记 本 实 
例 了 。 




















6.5.2 ”在 SageMaker 上 设置 笔记 本 


正如 我 们 已 准备 好 为 这 个 场景 要 上 传 到 $3 的 CSV 数据 一 样 , 我 们 也 已 经 准备 好 了 现在 要 使 
用 的 Jupyter 笔记 本 。 

你 可 以 将 笔记 本 上 传 到 用 来 保存 time_series_practice.ipynb 笔记 本 的 同一 个 SageMaker 文件 
夹 下 〈 单 击 Upload 将 笔记 本 上 传 到 该 文件 夹 )。 


6.6 ”构建 模型 


与 前 面 的 章节 一 样 ， 你 将 分 六 个 部 分 学 习 代 人 码 : 
口 加 载 并 检查 数据 ; 

口 将 数据 转换 为 正确 的 格式 ; 

口 创建 训练 集 和 验证 集 ; 
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口 训练 机 带 学 习 模 型 ; 
口 部 署 机 如 学 习 模 型 ; 
口 测试 机 如 学 习 模 型 并 用 模型 进行 决策 。 


6.6.1 第 一 部 分 : 加 载 并 检查 数据 


就 像 前 几 章 一 样 ， 第 一 步 是 指明 数据 的 存储 位 置 。 为 此 ， 你 需要 将 'mlforbusiness ' 更 改 
为 上 传 数据 时 创建 的 存储 桶 名 称 ， 并 将 其 子 文件 夹 重 命名 为 要 存储 数据 的 S3 子 文件 夹 名 称 ， 如 
代码 清单 6-9 所 示 。 

如 果 你 将 S3 文件 夹 命名 为 ch06， 则 无 须 更 改 该 文件 夹 名 称 。 如 果 你 保留 了 本 章 前 面 上 传 的 
CSV 文件 的 名 称 ， 则 无 须 更 改 meter_dqata.csv 代码 行 。 如 果 你 更 改 了 CSV 文件 的 名 称 ， 则 将 
meter_data.csv 更 改 为 你 将 其 更 改 的 名 称 。 要 在 笔记 本 单元 格 中 运行 代码 ， 请 单 击 该 单元 格 ， 
然后 按 Ctrl+Enter 组 合 键 。 


代码 清单 6-9 ”指明 数据 存储 的 位 置 






































存储 数据 的 S3 存储 桶 
= . | S3 存储 桶 子 储 数据 的 S3 存 作 
aqata_ bucket = 'mlforbusiness a 
subfolder = 'ch06' 的 子 文件 夹 
dataset = 'meter data.csy'! 用 来 训练 和 测试 
模型 的 数据 集 








代码 清单 6-10 中 导入 的 许多 Python 模块 和 库 与 前 几 章 中 使 用 的 相同 ,但 本 章 中 还 将 使 用 
Matplotlib 库 。 
代码 清单 6-10 ”导入 模块 


smatplotlib inline 


在 Jupyter 使 用 日 期 和 导入 Python 的 
笔记 本 中 使 import datetime 时 间 遂 数 json 模块 以 处 导入 random 模块 
用 绘图 功能 i | 理 JSON 文件 以 生成 随机 数 
limport random 

from random import shuffle | 导入 shuffle 函数 

















导入 的 AWS 分 发 随机 数 

库 boto3 1mport boto3 
import ipywidgets as widgets 导入 Jupyter 笔记 本 
import matplotlib.pyplot as plt 的 交互 式 小 部 件 
import numpy as np 

下 import pandas as pd 导入 Matplotlib 的 

0 from dateutil.parser import parse 绘图 功能 

成 VY IAJN 已 _HH 
工 广 梧 看 天 起 辣 汪 二 加 本 导入 numpy 库 以 
boto3 与 S3 一 起 使 使 用 数值 数组 

导入 冲 import sagemaker 用 更 加 方便 = 

SageMaker 导入 的 Python 库 





role = sagemaker.get _ execution role() ee 
s3 = s3fs.S3FileSystem(anon=False) P 


建立 与 S3 的 连接 创建 SageMaker 中 的 角色 
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接 下 来 ,你 将 加 载 并 查看 数据 。 在 代码 清单 6-11 中 ,你 谈 取 了 CSV 数据 并 在 pandas DataFrame 
中 显示 了 前 5 行 。 数 据 集 的 每 一 行 显示 了 13 个 月 内 (从 2017 年 11 月 1 日 到 2018 年 12 月 中 旬 ) 
以 30 分 钟 为 时 间 间 隔 的 能 源 使 用 数据 。 每 一 列 代 表 了 Kiara 公司 拥有 的 48 个 零售 分 文 机 构 之 一 。 


代码 清单 6-11 ”加载 并 查看 数据 





s3_data path = \ 加 读 取 S3 数据 集 
f"s3://{data bucket}/{subfolder}/data" 

i 展示 DataFrame 的 3 行 (第 5 行 、 
f"s3://{data bucket}/{subfolder}/output" 第 6 行 和 第 7 行 ) 


df = pd.read csvl( 
f's3://{data bucket}/{subfolder}/meter data.csv', 


ind 1 =0 用 
0 < 了 一] 读 取 电表 数据 
展示 前 5 行 数据 


表 6-4 展示 了 运行 display (df15:8]) 的 输出 。 该 表 仪 展示 了 前 6 个 分 文 机 构 的 数据 ， 但 
Jupyter 笔记 本 中 的 数据 集 包 含 了 48 个 分 文 结构 。 


表 6-4 半 小 时 间隔 的 能 耗 数据 

















Index Site 1 Site 2 Site 3 Site 4 Site 5 Site 6 
2017-11-01 00:00:00 13.30 | J ,6:8 13.02 0.0 :O09 
2017-11-01 00:30:00 11.75 “9 12.63 13.36 0.0 | 22 
2017-11-01 01:00:00 2858 A 11.86 13.04 0.0 由 






































可 以 看 到 , 表 6-4 中 的 第 5 列 展示 了 11 月 前 一 个 半 小 时 堆 消 耗 。 我 们 不 知道 这 是 否 是 数据 错 
误 ， 或 在 此 期 间 商 店 没有 消耗 任何 电量 。 在 进行 分 析 时 ， 我 们 将 讨论 这 种 情况 意味 着 什么 。 

我 们 来 看 看 数据 集 的 大 小 。 运 行 代码 清单 6-12 中 的 代码 时 ， 可 以 看 到 数据 集 有 48 列 (每 个 
分 支 机 构 为 一 列 ) 和 19 632 行 的 30 分 钟 能 耗 数 据 。 


代码 清单 6-12 ”查看 行 数 和 列 数 


print (f'Number of rows in dataset: {df.shape[0]}') 














print (f'Number of columns in dataset: {df.shape[1]}') 


加 载 数 据 后 ， 你 需要 将 数据 转换 为 可 以 使 用 的 正确 格式 。 


6.6.2 ”第 二 部 分 : 将 数据 转换 为 正确 的 格式 


将 数据 转换 为 正确 的 格式 涉及 四 个 步 又 : 
口 将 数据 转换 为 正确 的 时 间 间 隔 ; 

口 确定 缺失 值 是 否 会 造成 问题 ; 

口 如 果 需 要 ， 修 复 所 有 缺失 值 ; 

口 将 数据 保存 到 S3。 
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首 乞 ， 将 数据 转换 为 正确 的 时 间 间 隅 。 每 个 分 文 机 构 的 能 耗 电 表 的 时 间 序 列 数据 以 30 分 钟 
为 间隔 进行 记录 。 该 数据 的 细 粒 度 特性 对 于 某 些 工作 很 有 用 ,例如 快速 识别 功率 峰 信 或 低谷 , 但 
在 我 们 的 分 析 场 景 下 ， 它 不 是 正确 的 时 间 间 隔 。 

对 于 本 章 ， 由 于 你 没有 将 此 数据 集 与 其 他 任何 数据 集合 并 ， 因 此 可 以 使 用 30 分 钟 间隔 的 数 
据 来 运行 模型 。 但 下 一 童 将 历史 能 耗 数据 与 每 日 天 气 预报 相 结合 ， 以 更 好 地 预测 下 个 月 的 能 耗 。 
第 7 草 中 使 用 的 天 气 数据 反映 了 每 天 的 天 气 状况 。 由 于 你 要 将 能 耗 数 据 与 每 天 的 天 气 数据 相 结 
合 ， 因 此 最 好 使 用 相同 间隔 的 能 耗 数据 。 


1. 将 数据 集 的 时 间 间 隔 从 30 分 钟 转换 为 1 天 

代码 清单 6-13 展示 了 如 何 将 30 分 钟 的 数据 转换 为 以 每 日 数据 。pandas 库 包 含 许多 可 以 处 理 
时 间 序 列 数据 的 实用 功能 。 其 中 最 有 用 的 是 resample 函数 , 它 可 以 轻松 地 将 特定 时 间 间 隔 ( 例 
如 30 分 钟 ) 中 的 时 间 序 列 数据 转换 为 太一 种 时 间 间 隔 〈 例 如 每 日 )。 

为 了 使 用 resample 限 数 ,你 需要 确保 数据 集 使 用 日 期 列 作 为 索引 ， 并 且 该 索引 采用 日 期 - 
时 间 的 格式 。 如 你 所 料 , 该 索引 用 于 引用 数据 集中 的 行 。 因 此 ,例如 ,索引 为 1:30 AM 1 November 
2017 的 数据 集 可 以 由 1:30 AM 1 November 2017 进行 检索 。pandas 库 可 以 获取 此 类 索引 引 
用 的 行 ， 并 将 其 转换 为 其 他 时 间 周 期 ， 例 如 日 、 月 、 季 度 或 年 。 


代码 清单 6-13 ”将 数据 转换 为 每 日 数据 















































设置 索引 列 为 日 期 - 
df.index = pd.to datetime (df.index) 时 间 的 格式 


重 采 样 数据 集 ， 使 数 





daily_df = df.resample('D') .sum() 据 转换 为 每 日 间隔 而 
ee 展示 数据 集 的 不 是 30 分 钟 间隔 
前 5 行 


表 6-5 展示 了 转换 后 的 每 日 数据 。 
表 6-5 以 1 天 为 旧 隔 的 能 耗 数 据 








Index Site 1 Site 2 Site 3 Site 4 Site 5 Site 6 
2017=11=03 1184.23 直人 3 全 985.95 1205 .07 None 6684 .4 
201T7=11=02 1210.9 1084.7 1 013:a91 1252.44 None 6894.3 
2017-11-03 1247.6 1004.2 9.63..95 1222.4 None 6841 


























代码 清单 6-14 展示 了 数据 集中 的 行 数 和 列 数 ， 以 及 最 早 和 最 晚 的 日 期 。 
代码 清单 6-14 以 1 天 为 间隔 查看 数据 


print (daily_df.shape,) 
| . 打印 数据 集 的 
蕊 (在下 在 tart t {daily_ df.index[0]} \ De 
print ( ime series starts a aily index 行 数 和 列 数 


and ends at {daily_df.index[-1]}') 
展示 数据 集中 的 最 早 的 
日 期 和 最 晚 的 日 期 
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在 输出 中 可 以 看 到 ， 数 据 集 从 19 000 行 的 30 分 钟 间隔 数据 变 为 409 行 的 每 日 数据 ， 且 列 数 
保持 不 变 。 

(409, 48) 
Time series starts at 2017-11-01 00:00:00 anad ends at 2018-12-14 00:00:00 





2. 如 有 需要 ， 处 理 任何 缺失 值 

在 使 用 pandas 库 时 ， 你 会 发 现 有 一 些 精华 功能 可 以 让 你 优雅 地 处 理 环 手 的 问题 。 代 码 清单 
6-15 中 展示 的 代码 行 就 是 这 样 一 个 例子 。 

基本 上 ,除了 前 30 天 外 ,， 本章 中 使 用 的 数据 质量 还 不 错 。 不 过 它 缺 失 了 一 些 观测 值 ， 这 表 
未 一 些 缺 失 的 数据 点 。 这 不 会 影响 数据 的 训练 ( DeepAR 可 以 很 好 地 处 理 缺 失 值 )， 但 你 无 法 使 
用 有 缺失 值 的 数据 进行 预测 。 要 使 用 该 数据 集 进 行 预测 ， 你 需要 确保 没有 缺失 值 。 本 会 说 明 如 
何 操作 。 











注意 你 需要 确保 用 于 预测 的 数据 是 完整 的 且 没 有 缺失 值 。 








pandas 的 fillna 函数 可 用 于 填充 缺失 数据 。 这 意味 着 你 可 以 告诉 fillna 图 数 用 之 前 的 值 
填充 缺失 值 。 但 Kiara 知道 ， 他 们 大 部 分 分 文 机 构 的 能 耗 是 以 周 为 单位 循环 的 。 如 采 其 中 一 处 仓 
库 (周末 关闭 ) 缺少 星期 六 的 数据 ， 而 你 用 星期 五 的 数据 进行 填充 ， 那 么 数据 就 没有 那么 准确 。 
取而代之 的 是 ， 在 代码 清单 6-15 中 代码 将 缺失 值 茶 换 为 7 天 前 的 值 。 


代码 清单 6-15 ”替换 缺失 值 


daily_df = daily_df.fillna(daily_ df.shift(7)) 
使 用 这 一 行 代码 ， 你 就 将 缺失 信奉 换 为 7 天 前 的 值 了 。 


3. 查看 数据 

时 间 序 列 数据 最 好 从 视觉 上 理解 。 为 了 帮助 你 更 好 地 理解 数据 , 你 可 以 创建 图 表 来 展示 每 个 
分 文 机 构 的 能 耗 。 代 码 清单 6-16 中 的 代码 与 你 在 本 半 前 面 练习 笔记 本 中 使 用 的 代码 相似 。 主 要 
区 别 在 于 ， 你 无 须 循 环 裔 历 每 个 分 文 机 构 ， 而 是 在 名 为 indices 的 变量 中 设置 了 分 文 机 构 的 列 
表 ， 然 后 对 其 进行 循环 遍历 。 

如 果 你 还 记得 , 在 代码 清单 6-16 中 , 你 以 plt .的 别名 导入 了 matplotlipb.pyplot。 现在 ， 
你 可 以 使 用 plt .中 的 所 有 图 数 。 在 代码 清单 6-16 的 第 2 行 ， 创建 了 一 个 包含 2 x5 网 格 的 
Matplotlib 图 。 第 3 行 告诉 Matplotlib， 当 你 给 它 提供 要 使 用 的 数据 时 ， 它 应 将 数据 转换 为 单个 数 
据 序列 而 不 是 一 个 数组 。 

在 第 4 行 ，indices 是 数据 集中 分 文 机 构 的 列 编号 。 请 记 住 ，Python 是 从 0 开始 的 , 因此 0 
代表 1 号 分 支 机 构 。 这 10 个 分 支 机 构 展 示 在 第 2 行 中 设置 的 2x5 的 网 格 中 。 要 查看 其 他 分 支 机 
构 ， 只 需 更 改 数值 并 再 次 运行 代码 单元 格 即 可 。 

第 5 行 是 一 个 循环 ， 该 循环 声 历 你 在 第 4 行 中 定义 的 ijndices 中 每 个 元 兹 。 对 于 indices 
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中 的 每 个 元 素 ， 循 环 会 将 数据 添加 到 第 2 行 创建 的 Matplotlib 图 中 。 该 图 包含 一 个 网 格 ， 该 网 格 
宽 2 个 图 表 ， 长 5 个 图 表 ， 所 以 可 以 容纳 10 个 图 表 ， 这 与 indices 中 元 素 的 数量 相同 。 

第 6 行 是 将 所 有 数据 放 入 图 表 的 位 置 。aaily_aqf 是 一 个 数据 集 ， 其 中 包含 每 个 分 支 机 构 的 
日 能 耗 数据 。 该 行 的 第 一 部 分 选择 你 将 在 图 表 中 展示 的 数据 。 第 7 行将 数据 插入 图 表 中 。 第 8 
行 和 第 9 行 在 图 表 上 设置 标签 。 


代码 清单 6-16 ”生成 图 表 展 示 每 个 分 文 机 构 在 儿 个 月 内 的 情况 

















print('Number of time series:',daily_df.shapel1l]) 
fig, axs = plt.subplotsl( 展示 数据 集 daily_qf 
确保 将 数据 人 的 列 数 。 分 支 机 构 的 总 
保存 为 一 个 > 创建 Matplotlib 图 以 包 数 是 48 
序列 a 含 10 个 图 表 (5 行 , 每 和 
en 行 2 个 图 表 ) 
sharex=True) 
i 指定 你 想 要 绘制 的 
indices = [0,1,2,3,4,5,40,41,42,43] 10 个 分 支 机 构 


daily_dfldaily_df.columns[1i]].locl 
从 列表 indices 中 一 个 


"2017-11-01":"2018-01-31"|] .plot( 
ax=axx [plot _ num]) 接 一 个 地 获取 每 个 元 素 


en 志和 Se 循环 遍历 每 个 
plot_num = lindices.index(1) 四 分 支 机 构 





axx[plot num]l .set xljabel("date") 


axx[plot _ num] .set ylabel ("kW consumption") 设置 x 轴 的 标签 


将 图 中 的 数据 设置 为 变量 
indices 引用 的 分 支 机 构 设置 y 轴 的 标 


现在 ， 你 可 以 看 到 数据 的 模样 了 ， 下 面 可 以 创建 训练 集 和 测试 集 了 。 
6.6.3 ”第 三 部 分 : 创建 训练 集 和 测试 集 


DeepAR 要 求 数据 为 JSON 格式 。JSON 是 一 种 非 第 常见 的 数据 格式 ， 人 和 机 血 痢 能 够 读 取 。 

常用 的 一 种 层次 结构 是 计算 机 上 的 文件 夹 系统 。 当 你 存储 正在 处 理 的 不 同 项 目的 文档 时 ,可 
以 为 每 个 项 目 创建 一 个 文件 夹 , 并 将 与 每 个 项 目 有 关 的 文档 放 在 该 文件 夹 中 , 这 就 是 一 个 层次 结 
构 。 

在 本 章 中 ， 你 将 创建 一 个 具有 简单 结构 的 JSON 文件 。 与 保存 项 目 文档 的 项 目 文件 夹 ( 就 像 
前 面 的 文件 夹 示 例 ) 不 同 , JSON 文件 中 的 每 个 元 素 将 保存 一 个 分 文 结构 的 每 日 能 耗 数 据 。 夯 外 ， 
每 个 元 素 还 将 包含 两 个 额外 的 元 素 ， 如 代码 清单 6-17 所 示 。 第 一 个 元 素 是 start， 它 包含 日 期 ; 
第 二 个 元 素 是 target ， 它 包含 该 分 文 机 构 每 天 的 能 耗 数 据 。 由 于 你 的 数据 集 溯 新 了 409 天 ， 
此 有 409 个 target 元 素 。 


代码 清单 6-17 JSON 文件 示例 
{ 


















































eta Ts WOOLT7=EIE=0L.00800300™, 
"target": | 
1184.23, 
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1210.9000000000003， 
1042.9000000000003， 


1144.2500000000002， 
J 22 29909909999999 





} 


要 创建 JSON 文件 ， 你 需要 进行 一 些 转 换 来 获取 数据 : 

口 将 数据 从 DataFrame 转换 为 序列 列表 ; 

口 从 训练 集中 保留 30 天 的 数据 ， 这 样 你 就 不 需要 在 测试 数据 上 训练 模型 ; 

口 创建 JSON 文件 。 

第 一 次 转换 是 将 数据 从 DataFrame 转换 为 数据 序列 的 列表 , 每 个 序列 包含 一 个 分 文 机 构 的 能 
耗 数 据 。 代 码 清 单 6-18 展示 了 如 何 执行 该 操作 。 


代码 清单 6-18 将 DataFrame 转换 为 序列 列表 


循环 遍历 呈 z z z 有 
dalily_power consumption per site = [|] 





DataFrame ; DataFrame 中 的 列 
中 的 列 for column in dalily_df.columns: 
site consumption = site_ consumption.fillna(o0) 用 0 替换 
daily_power_consumption per_ site.appenad ( 缺失 值 
site_ consumption,) 
本 追加 列 到 
print (f'Time series covers \ 列表 
{len(daily_ power_ consumption per_ site[0])} days.') 
print (f'Time series starts at \ | 打印 天 数 
print (f'Time series ends at 打印 第 一 个 分 支 








{daily_power_ consumption per_sitel[0].index[0]}') 
机 构 的 开始 日 期 


打 久 第 一 个 分 支 
机 构 的 结束 日 期 

在 代码 清单 6-18 的 第 1 行 中 ， 你 创建 一 个 列表 来 保存 每 个 分 文 机 构 。 该 列表 的 每 个 元 素 都 
包含 数据 集 的 一 列 。 第 2 行 创建 一 个 循环 来 站 历 各 列 。 第 3 行将 每 列 数据 追加 到 第 1 行 创建 的 
daily_power_consumption_per_site 列表 中 。 第 4 行 和 第 5 行 打印 结果 ， 因 此 你 可 以 确认 
转换 后 的 数据 仍 与 DataFrame 中 的 数据 具有 相同 的 天 数 和 时 间 段 。 

接 下 来 设置 几 个 变量 , 这 些 变 量 将 帮助 你 在 笔记 本 中 保持 时 间 周 期 和 间隔 一 至。 第 一 个 变量 
是 freq， 你 将 其 设置 为 D。D 代表 日 ， 表 示 你 正在 使 用 的 是 每 日 数据 。 如 果 你 使 用 每 小 时 数据 ， 
则 使 用 HE， 每 月 数据 为 M。 

你 还 可 以 设置 预测 期 限 (prediction period )。 这 表示 你 要 预测 的 天 数 。 例 如 ,在 此 笔记 本 中 ， 
训练 集 的 时 间 为 从 2017 年 11 月 1 日 到 2018 年 10 月 31 日 ， 并 且 你 要 预测 2018 年 11 月 的 能 耗 。 
11 月 为 30 天 ， 因 此 你 将 preqiction _ length 设置 为 30。 

设置 了 代码 清单 6-19 中 的 第 1 行 和 第 2 行 中 的 变量 后 ， 接 着 以 时 间 惟 格式 定义 开始 和 绪 
日 期 。 时 间 戳 (Timestamp ) 是 一 种 将 日 期 、 时 间 和 频率 存储 为 单个 对 象 的 数据 格式 。 这 样 可 以 


{daily_power_consumption per sitel[0].index[-1]}') 
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轻易 地 从 一 种 频率 转换 为 另 一 种 频率 ( 例如 每 日 转换 到 每 月 )， 还 可 以 方便 地 对 日 期 和 时 间 进 行 
加 减 操 作 。 

在 第 3 行 , 你 将 数据 集 的 start_date 设置 为 2017 年 11 月 1 日 , 并 将 训练 集 的 结束 日 期 设 
置 为 2018 年 10 月 末 。 训 练 集 的 结束 日 期 是 364 天 后 ， 测 试 集 是 在 那 之 后 的 30 天 。 请 注意 ， 你 
只 需 在 最 初 的 时 间 戳 中 增加 天 数 ， 即 可 自动 计算 出 日 期 。 


代码 清单 6-19 ”设置 预测 期 限 的 长 度 


设置 时 间 序列 的 
7 频率 为 天 


icti 设置 预测 期 限 
prediction length = 30 


start_date = pd.Timestampl( Se 
"2017-11-01 00:00:00"， | 设置 start_date 为 
2017 年 11 月 1 日 











fredq=freq) 
end training = start date + 364 
end_ testing = engd training + prediction length 





print (f'End training: {end training}, End testing: {engd testing}') 


设置 训练 集 的 结束 日 期 设置 测试 集 的 结束 日 期 
为 2018 年 10 月 31 日 为 2018 年 11 月 30 日 








DeepAR 的 JSON 输入 格式 将 每 个 时 间 友 列 都 表示 为 一 个 JSON 对 和 象 , 在 最 简单 的 情况 下 (本 
草 将 用 到 )， 每 个 时 间 序 列 都 由 一 个 开始 时 间 惟 (start ) 和 一 个 值 列表 ( target ) 组 成 。JSON 
输入 格式 是 一 个 JSON 文件 ， 其 中 展示 了 Kiara 提供 的 48 个 分 文 机 构 的 每 日 能 耗 。DeepAR 模型 
需要 两 个 JSON 文 件 : 第 一 个 是 训练 数据 ， 第 二 个 是 测试 数据 。 

创建 JSON 文件 分 为 两 步 。 首先 , 创建 与 JSON 文件 结构 相同 的 Python 字典 , 然后 将 Python 
字典 转换 为 JSON 并 保存 为 文件 。 

要 创建 Python 字 典 格式 ， 你 需要 循环 遍历 代码 清单 6-18 中 创建 的 daily_power_consumption_. 
per_site 列表 ， 并 设置 变量 start 和 目标 列表 。 代 码 清单 6-20 使 用 了 一 种 名 为 列表 推导 式 
( list comprehension ) 的 Python 循环 方式 。 左 右 花 括号 〈 代 但 清单 6-20 的 第 2 行 和 第 5 行 ) 之 间 
的 代码 标记 了 代码 清单 6-17 所 示 的 JSON 文件 中 每 个 元 素 的 开始 和 结束 。 第 3 行 和 第 4 行 中 的 代 
码 导 入 训练 集中 的 开始 日 期 和 天 数列 表 。 

第 1 行 和 第 7 行 标志 了 列表 推导 式 的 开始 和 结束 。 该 循环 在 第 6 行进 行 了 说 明 ,， 代 码 表示 列 
表 ts 将 用 来 保存 循环 遍历 daily_power_consumption_per_site 列表 时 的 每 个 分 文 机 构 。 
这 就 是 为 什么 在 第 4 行 出 现 了 变量 ts [start date:end trainingl]。 代码 el art oat 
eng_training] 是 一 个 列表 ， 其 中 包含 一 个 分 文 结构 以 及 代码 清单 6-19 中 设置 的 从 start_gate 
到 eng_training 之 间 所 有 日 期 的 数据 。 





























6.6 构建 模型 125 


代码 清单 6-20 ”创建 一 个 与 JSON 文件 结构 相同 的 Python 字典 


training _ data = | 


{ 只 到 等 个 它 曲 创建 一 个 字典 对 象 列 表 
设置 开始 "etart rr. Stelatart -date) We 来 保存 训练 数据 
日 期 加 "target": 七 S[ 妈 
站 start_ date:engd training] .tolList( 
} 
for ts in timeseries 个 字典 为 每 个 分 支 机 构 创建 一 个 
] 国 上 :As 能 耗 训 练 数据 列表 
设置 训练 数据 
test_data = 的 结束 列表 推导 式 循 环 
{ 
"start": str(start date) 
"target": tsl 
start_ date:end testing] .tolist() 
} 为 每 个 分 支 机 构 创 建 一 个 
for ts in timeseries 能 耗 测试 数据 列表 
] 


现在 你 已 经 创建 了 两 个 Python 字典 ， 分 别 为 test_aata 和 training_data， 你 需要 将 它 


们 保存 为 S3 上 的 JSON 文件 ， 以 便 DeepAR 使 用 。 为 此 ,创建 一 个 辅助 函数 ， 该 函数 将 Python 
字典 转换 为 JSON , 然后 将 该 图 数 应 用 于 test_data 和 training_data 字典 , 如 代码 清单 6-21 
所 示 。 


代码 清单 6-21 将 JSON 文件 保存 到 S3 上 


创建 一 个 将 字典 数据 
写 入 S3 的 函数 
def write dicts to s3(path, data): 打开 S3 文 件 


with s3.o0pen(path, 'wb') as f: 对 象 以 JSON 格式 写 入 
这 字典 对 象 
循环 遍历 Fn (On. Unmetd) encodet "utt=8" 


数据 f.write("\n".encode('utf-8')) 

与 入 一 个 换行 符 ， 

这 样 每 个 字典 对 
会 新 起 一 行 


write dicts to s3( 
f'{s3_data path}/train/train.json', 
training_data) 








名 泥 冀 扩 
write dicts to S3 ( 将 函数 应 用 于 
f'{s3_data path}/test/test.json’', 训练 数据 
test_data,) 
将 函数 应 用 于 
测试 数据 


你 的 训练 数据 和 测试 数据 现在 以 JSON 格式 存储 在 S3 上 了 。 这 样 , 数据 束 和 存在 于 SageMaker 
会 话 中 ， 你 可 以 开始 训练 模型 了 。 


6.6.4 ”第 四 部 分 : 训练 模型 


现在 已 将 数据 以 人 S3 上 ， 你 可 以 开始 训练 模型 了 。 如 代码 清单 6-22 所 示 ， 
第 一 步 是 设置 一 些 变 量 ， 这 些 变量 将 作为 构建 模型 的 estimator 图 数 的 参数 。 
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代码 清单 6-22 ”设置 训练 模型 的 服务 大 





SUE Da SN\ 设置 保存 机 器 学 习 
f's3://{data bucket}/{subfolder}/output' 模型 的 路 径 
sess = sagemaker.Sessionl) 一 
Imade name = sagemaker.amazon.amazon estimator.get image uril 
sess.boto_ region name, 
OE 告诉 AWS 用 forecasting-deepar ”创建 保持 SageMaker 
ee 镜像 来 构建 模型 会 话 的 变量 








接 下 来 将 变量 赋予 sstimator ， 如 代码 清单 6-23 所 示 。 这 将 设置 SageMaker 启动 以 构建 模 
型 的 机 需 类 型 。 你 将 使 用 c5.2xlarge 机 需 的 单个 实例 。SageMaker 创建 该 机 右 ， 启 动 它 ， 构 建 模 
型 ， 然 后 自动 将 其 停止 。 这 人 台 机 需 的 成 本 大 约 每 小 时 0.47 美元 。 构 建 模型 大 约 需 要 3 分 钟 ， 这 意 
味 看 只 知人 花费 几 美 分 即 可 。 


代码 清单 6-23 ”设置 est imator 来 保存 训练 参数 
为 模型 创建 est imat 


or 
变量 
As 
estimator = sagemaker.estimator.Estimator ( 应 用 SageMaker 会 话 


sagemaker_session=sess, 








设置 


镜像 





limage_ name=image_name, 


role=role, 为 训练 机 器 设置 单个 实例 


train instance count=1, 











train instance type='ml.c5.2xlarge', 设置 用 来 训练 模型 的 
Daeer OD nanes'cel6=-energy UBage 机 器 大 小 和 
[=| 








output_ path=s3_output _ path 
) 
将 模型 保存 到 你 在 S3 上 申明 作业 的 名 称 
设置 能 够 运行 设置 的 输出 位 置 
镜像 的 角色 


理 查 德 关于 SageMaker 实例 类 型 的 说 明 
在 本 书 中 ， 你 会 注意 到 我 们 选择 对 所 有 训练 和 推理 实例 使 用 的 实例 类 型 是 ml.m4.xlarge。 
这 仅仅 是 因为 在 撰写 本 书 时 ， 这 些 实例 类 型 的 使 用 已 包含 在 Amazon 的 免费 套餐 中 。 
对 于 本 书 提 供 的 所 有 样本 , 该 实例 绰绰有余 。 人 但是， 如果 你 的 问题 更 加 复杂 且 数 据 集 比 我 
们 提供 的 数据 集 大 得 多 ， 那么 你 应 该 在 工作 环境 中 使 用 什么 ?这 没有 硬性 规定 , 但 下 面 是 一 些 


准则 。 
口 有 关 你 使 用 的 算法 ， 请 参阅 Amazon 网 站 上 的 SageMaker 示例 。 以 Amazon 示例 作为 默 
NI 


口 确定 计算 出 所 选 实例 类 型 实际 花费 了 多 少 训 练 和 推断 费用 。 

口 如 果 你 在 训练 或 推断 的 成 本 以 及 时 间 方 面 遇 到 问题 ， 请 尝试 不 同 的 规格 的 实例 。 

口 请 注意 ,一 个 大 型 且 见 贵 的 实例 通常 比 一 个 较 小 的 实例 训练 模型 的 成 本 要 低 ， 而 且 运 行 
时 间 更 短 。 
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口 在 计算 实例 上 进行 训练 时 ，XGBoost 可 以 并 行 运行 ， 但 完全 无 法 从 GPU 实例 中 受益 ， 
因此 ， 不 要 在 基于 GPU 的 实例 (p3 或 加 速 计 算 ) 上 浪费 时 间 进 行 训练 或 推理 。 但 是 ， 
请 随时 在 训练 中 尝试 使 用 m5.24xlarge 或 m4.16xlarge。 它 实际 上 可 能 更 便宜 ! 

口 在 训练 过 程 中 ，GPU 实例 对 基于 神经 网 络 的 模型 帮助 非常 大 ， 但 通常 无 须 用 GPU 实例 
进行 推理 ， 因 为 它们 非常 昂 员 。 

口 如 果 你 大 量 使 用 笔记 本 实例 ,那么 它 很 可 能 会 受到 内 存 限制 ， 因 此 ， 如 果 这 对 你 造成 问 
题 ， 请 考虑 使 用 具有 更 多 内 存 的 实例 。 请 注意 ， 即 使 你 没有 使 用 实例 ， 你 也 要 为 实例 
运行 的 每 一 小 时 付费 ! 


设置 好 estimator 后 ， 你 需要 设置 其 参数 。SageMaker 为 你 提供 了 几 个 参数 。 你 唯一 需要 
修改 的 两 个 参数 是 代码 清单 6-24 的 第 7 行 和 第 8 行 中 展示 的 最 后 两 个 参数 : context_length 
oredictiorn Jendgth 

上 下 文 长 度 (context_length ) 是 用 于 进行 预测 的 最 短 时 间 。 将 此 值 设置 为 90， 表 示 你 
希望 DeepAR 至 少 使 用 90 天 的 数据 来 进行 预测 。 在 业务 环境 中 ， 这 通常 是 一 个 不 错 的 选择 ， 
为 它 可 以 捕捉 到 季度 趋势 。 预 测 长 度 (predaiction_length ) 是 预测 的 时 间 段 。 对 于 该 笔记 本 ， 
你 要 预测 的 是 11 月 的 数据 ， 因 此 你 使 用 30 天 的 prediction length。 


代码 清单 6-24 设置 est imator 的 参数 




















将 批 大 小 设置 为 64 设置 超 参数 将 频率 设置 
(保留 该 值 不 变 ) 为 每 天 
0 设置 迭代 次 数 为 400 
i (保留 该 值 不 变 ) 
epochs="400", 
i em ee 设置 提前 停止 的 值 为 40 
人 (保留 该 值 不 变 ) 


learning_rate="5E-4", 


人 夕 2 
prediction length=str(prediction length) 将 上 下 文 长 度 
设置 为 90 天 


将 预测 长 度 设置 


将 学 习 率 设置 为 0.0005 为 30 天 
(指数 值 5&-4 的 十 进 制 
转换 ) 


现在 ， 你 可 以 训练 模型 了 ， 如 代码 清单 6-25 所 示 。 这 将 花费 5~10 分钟 的 时 间 。 
代码 清单 6-25 ”训练 模型 


gst ime 导入 训练 数据 和 测试 No 

i 数据 以 构建 模型 Wp 
"train": "{}/train/".format(s3_data path), 测试 数据 
"test": "{}/test/".format(s3_data path) 


} 
SBEimatESK,. tit(inpitesdata channele,. WaliterTrue) < 运行 构建 模型 的 estimator 国 数 





128 第 6 章 ， 预测 你 公司 的 每 月 能 耗 


这 段 代 码 运 行 后 ,模型 就 训练 完成 了 了， 你 现在 就 可 以 将 其 部 署 在 SageMaker 上 ， 以 准备 进行 
决策 。 


6.6.5 ”第 五 部 分 : 部 署 模 型 





部 团 模 型 涉及 几 个 步 怠 。 首 和 完 ， 在 代码 清单 6-26 中 ， 你 删除 了 现 有 的 所 有 冰点 ， 避 倪 为 一 
堆 未 使 用 的 端点 付费 。 


代码 清单 6-26 ”删除 现 有 的 端点 
endpoint name = 'energy-usSage' 
(5 RV 
sess.delete endpoint\( 
sagemaker .predictor.RealTimepredictor!\ 
endpoint=endpoint_ name) .endpoint, 
delete_ endpoint config=True) 











DEILNnE( 
'Warning: Existing endpoint deletedqd to make way for new endpoint.') 
from time import sleep 
sleep(10) 
exCept: 


pass 





接 下 来 是 一 个 代码 单元 格 , 你 实际 上 不 需要 对 其 有 所 了 解 。 这 是 Amazon 准备 的 助手 类 ,使 你 
可 以 将 DeepAR 模型 的 结果 作为 pandas DataFrame 而 不 是 JSON 对 和 象 来 查看 。 可 以 肯定 的 是 , 将 来 
他 们 会 将 这 段 代 人 码 作 为 M 库 的 一 部 分 。 现 在 ， 只 需 单 击 单 元 格 并 按 Ctrl+Enter 组 合 键 即 可 运行 。 

现在 到 了 设置 绒 点 进行 预测 的 阶段 如 代码 清单 6-27 所 示 。 你 将 使 用 m5.large 机 右 ， 因 为 
它 的 性 价 比 很 高 。 截 至 2019 年 3 月 ，AWS 对 该 类 机 硕 收 费 是 每 小 时 13.4 美 分 。 因 此 ， 如 采 你 将 
端点 保留 一 天 ， 那 么 总 费用 约 为 3.22 美元 。 


代码 清单 6-27 设置 predictor 类 


将 estimator 部 署 到 名 为 
predictor 的 变量 设置 为 基于 单 台 
机 器 运行 
predictor = estimator.deploy ( 


initial instance count=1, 下 
- 使 用 m5.large 机 器 
instance type='ml .m5.1large' 


predictor_cls= eerARDredl ded. 


endpoint name=endpoint name) 使 用 DeepARPredictor 类 将 结果 
| 作为 pandas DataFrame 返回 
将 端点 命名 为 


energy-usage 














你 已 经 准备 好 进行 预测 了 。 


6.6.6 ”第 六 部 分 : 进行 预测 并 绘制 结果 
在 笔记 本 的 剩余 部 分 ， 你 将 做 3 件 事 情 。 
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口 对 一 个 月 进行 预测 ， 该 预测 将 显示 第 50 百 分 位 数 ( 最 有 可 能 ) 的 预测 绪 末 ， 并 且 还 显示 
其 他 两 个 百 分 位 数 之 间 的 预测 区 间 。 例 如 ， 如 末 要 显示 80% 的 置信 区 间 ， 则 预测 结果 还 
将 显示 落 在 80% 和 置信 和 度 区 间 的 上 限 和 下 限 。 

口 用 图 形 表示 结果 ， 以 便 你 可 以 轻松 地 描述 结 

口 对 2018 年 11 月 的 所 有 数据 结果 进行 预测 。 该 数据 并 没有 用 于 训练 DeepAR 模型 , 因此 它 
可 以 证 明 模 型 的 准确 性 。 


1. 预测 单个 分 支 机 构 的 能 耗 

要 预测 单个 分 文 机 构 的 能 耗 ， 只 需要 将 该 分 文 机 构 的 详细 信息 传递 给 predictor 函数 。 在 
代码 清单 6-28 中 ， 你 正在 针对 1 号 分 支 机 构 的 数据 进行 预测 。 
代码 清单 6-28 设置 predictor 类 


DrIedLetors pvedtLet (ts=dally Dower onsumpbtion- Der stEe[0] 对 第 一 个 分 支 机 构 运行 











estart acrer> Ueng trarminogl, predictor 函数 
aquantiles=[0.1, 0.5, 0.9]).head() 


表 6-6 展示 了 对 1 号 分 文 机 构 进 行 预测 的 结果 。 第 一 列 展示 日 期 ; 第 二 列 展示 结 末 的 第 10 
百 分 位 数 的 预测 ; 第 三 列 展示 了 第 50 百 分 位 数 的 预测 ; 最 后 一 列 展示 了 绪 采 的 第 90 百 分 位 数 的 
预测 。 


表 6-6 预测 Kiara 公司 1 号 分 支 机 构 的 能 耗 数据 









































Day 0.1 0.5 0.9 
2018-1]11-01 58.509766 226.118042 292.3L543'0 
2018-11-02 54.938232 225.540405 280.479126 
2018-11-03 19.561646 1186.360962 1278.330200 














现在 你 有 了 进行 预测 的 方法 ， 可 以 绘制 预测 结 来 图 了 。 


2. 绘制 单个 分 支 机 构 的 能 耗 预测 结果 图 表 
代码 清单 6-29 中 的 代码 展示 了 可 以 让 你 设置 图 表 的 函数 。 它 与 你 在 练习 笔记 本 中 使 用 的 代 
码 类 似 ， 但 还 要 复杂 些 ， 可 以 让 你 以 图 形 的 方式 展示 绪 采 范围 。 


代码 清单 6-29 设置 绘图 函数 











def plot Re i 
0 设置 绘图 函数 
redlictor, 
加 的 参数 
target ts, 


end training=engd training, 
Plot weeks=12, 
confidence=80 


je 





print (f"Calling served model to generate predictions starting from \ 
{engd training} to {end training+prediction length}") 
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low gquantile = 0.5 - confidence * 0.005 
uD duantile = conftidence * OQ-005. 4 0%5 计算 下 限 
设置 图 表 的 plot_ history = plot weeks * 7 
大 小 计算 上 限 
fig = plt.figure(figsize=(20, 3)) 
ax = plt.subplot(1,1,1) 
RE 计算 基于 参数 plot_weeks 
a ee 的 天 数 
单个 图 表 prediction = predictor.predictl( 
ts=target_ts[:engd trainingl], 
aquantiles=|[ 
low_ gquantile, 0.5, up_quantilel]) 
| 预测 函数 
target_section = target ts [ 
end_ training-plot_ history:\ 
end training+prediction lengthl] 
| 设置 实际 值 
target_section.plotl( 
ee =- 设置 实际 值 的 
线 的 颜色 
ax.fill] between ( 
设置 范围 的 人 ( -Owe Le ] .index, 
颜色 | 
- predictionlstr(up gquantile)|] .values, 
COLOF=Y BY™. 
alpha=0 .3, 


label=f'{confidence}% confidence interval' 
) 
prediction["0.5"] .plotl( 


-1 因而 测 士 
Color="b", 设置 预测 结果 


label='P507) 的 颜色 
ax. legend (1o0c=2) 二 | 创建 图 例 


ax.Set_Y1L1m( 
target_section.min() * 0. 
target_ section.max() * 1 


代码 第 1 行 创建 了 一 个 名 为 plot 的 函数 ,该 限 数 可 以 让 你 为 每 个 分 支 结 构 创 建 一 个 数据 图 
表 。plot 羡 数 有 以 下 3 个 参数 。 
你 在 代码 清单 6-28 中 运行 的 predqictor， 它 将 生成 分 文 机 构 的 预测 结 
你 想 要 在 图 表 中 展示 的 周 数 。 
图 表 中 展示 的 区 间 的 置信 上 度 。 

在 代码 清单 6-29 的 第 2 行 和 第 3 行 中 ,你 可 以 根据 在 第 1 行 中 作为 参数 输入 的 confidence 
值 来 计算 要 展示 的 置信 区 间 。 第 4 行 根据 参数 plot_weeks 计算 天 数 。 第 5 行 和 第 6 行 设 置 了 图 
和 子 图 的 大 小 。( 你 只 展示 一 个 图 ) 第 7 行 运行 分 文 机构 的 prediction 困 数 。 第 8 行 和 第 9 行 
设置 图 表 的 日 期 范围 和 实 线 的 颜色 。 第 10 行 设置 将 在 图 表 中 展示 的 预测 范围 , 第 11 行 定义 预测 
线 。 最 后 ， 第 12 行 和 第 13 行 设 置 了 图 例 和 网 表 缩 放 比 例 。 











predicator 





UD plot weeks 





DD confidence 
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注意 在 设置 图 表 的 函数 中 ， 我 们 使 用 笔记 本 较 早 设置 的 全 局 变量 。 这 不 是 理想 的 选择 ， 但 这 
么 做 是 出 于 使 该 函数 简单 点 的 目的 。 


代码 清单 6-30 运行 该 函数 。 图 6-8 展示 了 单个 分 文 机 构 实际 数据 和 预测 数据 。 该 代码 清单 使 
用 34 号 分 文 机 构 作 为 要 展示 的 例子 ,该 图 中 展示 了 30 天 预测 期 限 之 前 的 8 周 数 据 , 并 定义 了 80% 
的 置信 和 度 


代码 清单 6-30 ”运行 创建 图 表 的 函 


设置 要 绘制 图 设置 图 表 和 包含 
机 分 支 结 构 周 数 
site id = 





、\ 几 L 
NE = 芭 发 置 年 信 度 
confidence = 为 80% 
+] 运行 plot 函数 
predictor, 


target_ ts=daily_power_consumption per sitel 
site_ id]l][start date+30:], 

plot_weeks=plot_weeks, 

confidence=confidence 


) 
图 6-8 展示 了 你 生成 的 图 表 。 你 可 以 使 用 该 图 表 展 示 Kiara 的 每 个 分 文 机 构 的 预计 使 用 模式 。 





In [65]: customer id = 34 

plot_weeks = 6 

confidence = 86 

plot( 
predictor, 
target ts=daily power_ consumption per_ site[customer id][start date+30:], 
plot weeks=plot weeks, 
confidence=confidence 


) 
Calling served model to generate predictions starting from 2018-10-31 80:00:00 to 2018-11-38 680:808:00 

















图 6-8 图 表 展 示 了 Kiara 的 其 中 一 个 分 支 机 构 2018 年 11 月 的 能 耗 预 测 值 与 实际 值 
之 间 的 对 比 


3. 计算 所 有 分 支 机 构 的 预测 准确 率 

现在 你 能 看 到 其 中 一 个 分 文 机 构 的 预测 情况 ， 是 时 候 计 算 所 有 分 文 机 构 的 误差 了 。 为 此 , 你 
可 以 使 用 平均 绝对 百分比 误差 ( Mean Absolute Percentage Error，MAPE )。 pp 际 值 与 预 
测 值 之 差 除 以 实际 值 。 例 如 ， 如 有 果实 际 值 为 50， 而 预测 值 为 44， 则 将 50 减 去 45， 得 5， 然后 除 





132 第 6 章 ”预测 你 公司 的 每 月 能 耗 





以 50， 结 果 为 0.1。 结 果 通 常用 百分比 表示 ， 因 此 ， 你 将 该 数 乘 以 100 即 可 得 出 10%。 所 以 ， 实 
际 值 50 和 预测 值 45 的 MAPE 为 10%。 

计算 MAPE 的 第 一 步 是 在 2018 年 11 月 的 所 有 数据 上 运行 predictor， 并 获取 该 月 的 实际 
值 (使 用 值 )。 代 码 清单 6-31 显示 了 如 何 做 到 这 一 点 。 

在 第 S 行 ， 可 以 看 到 一 个 书 中 尚未 使 用 的 图 数 : zip 图 数 。 这 是 一 段 非 常 有 用 的 代码 ， 它 人 允 
许 你 同时 循环 遍历 两 个 列表 ,并 使 用 每 个 列表 的 对 应 元 素 做 些 有 趣 的 事情 。 在 该 代码 清单 中 , 你 
要 做 的 有 趣 的 事情 是 将 实际 值 与 预测 值 进 行 比 较 。 


























代码 清单 6-31 运行 predictor 


predictions= [|] . 机 
for i, ts in enumetrate ( 箱 环 坎 历 每 个 分 支 
daily_power_consumption per_site): 机 构 每 日 能 耗 





print (id, t:s[0]) 
predictions.appendl( 
predictor.predict( 
ts=ts[lstart date+30: ena trainingl | 对 11 月 进行 预测 


[05 has y)) 
usages = [ts[lend training+l:end training+30] .sum() \ 
. ; | ; -| 得 到 实际 值 
for ts in daily power consumption per sitel 
for p,u in Zip(predictions,usages): 打印 实际 值 
print (f'Predicted {p} kwh but usage was {u} kwh,') 和 预测 值 


代码 清单 6-32 展示 了 计算 MAPE 的 代码 。 定 义 了 函数 后 ， 你 将 用 它 来 计算 MAPE。 


代码 清单 6-32 计算 MAPE 
def mape (ly_true, y_pred): 
y_true, y_preqd = np.array (y_true), np.array (y_pred) 


return np.mean(np.abs((y_true - y_pred) / y true)) * 100 
代码 清单 6-33 对 2018 年 11 月 的 30 天 内 的 所 有 实际 值 和 预测 值 运行 了 mape 函数 ， 并 返回 
了 每 一 天 的 平均 MAPE 值 。 





代码 清单 6-33 ”运行 mape 困 数 


print (f'MAPE: {round(mape (usages, predictions),1)}%$') 


由 于 你 尚未 添加 天 气 数 据 ， 因 此 所 有 天 的 平均 MAPE 为 5.7%， 这 绪 采 非常 不 错 。 你 将 在 第 
7 草 中 添加 天 气 数据 。 在 第 7 草 中 ， 你 需要 处 理 更 长 周期 的 数据 ， 以 便 DeepAR 算法 可 以 开始 发 
现年 度 趋 努 。 


6.7 删除 端点 并 停止 你 的 笔记 本 实例 
停止 笔记 本 实例 并 删除 端点 很 重要 。 我 们 不 希望 你 因 未 使 用 的 SageMaker 服务 而 付费 。 
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6.7.1 删除 端点 


附录 D 描述 了 如 何 使 用 SageMaker 控制 侣 何止 笔记 本 实例 并 删除 端点 ， 或 者 你 也 可 以 使 用 
代码 清单 6-34 中 的 代码 来 执行 操作 。 


代码 清单 6-34 ”删除 笔记 本 
# 删除 菇 点 (可 选 ) 
# 如 果 和 希望 句 点 在 单 击 Run All 后 继续 存在 ， 请 将 该 单元 格 注释 掉 
sagemaker.Session() .delete endpoint (fcft_enaqpolnt .enadqpomnt ) 
要 删除 端点 ,请 去 抒 代 码 清单 6-34 中 的 代码 注释 , 然后 按 Ctrl+Enter 组 合 键 运行 单元 格 中 的 
eh 


6.7.2 ”停止 笔记 本 实例 


要 停止 笔记 本 ， 请 返回 打开 SageMaker 的 浏览 需 选 项 卡 。 单 击 Notebook instances 琳 单 项 以 
查看 所 有 笔记 本 实例 。 选 择 笔记 本 实例 名 称 旁 边 的 单 选 按钮 ， 如 图 6-9 所 示 ， 然 后 在 Actions 菜 
单 上 单 击 Stop。 停 止 操作 需要 几 分 钟 的 时 间 。 














Amazon SageMaker Notebook instances 
Notebook instances 
Open Jupyter 
Q, Search notebook instances 2. 选择 Stop P Py 
Open JupyterLab 
Name v Instance Creation time v >top 


1. 选择 单 


选 按钮 一 *o mlforbusiness-ch02 ”mLt2.large May 21, 2018 11:29 UTC Add/Edit tags 


图 6-9 俘 止 笔记 本 





6.8 ”检查 以 确保 端点 已 被 删除 


如 果 你 没有 使 用 笔记 本 删除 端点 (或 者 只 是 想 确保 端点 已 被 删除 )， 那 么 可 以 从 SageMaker 
控制 台 执 行 此 操作 。 要 删除 痕 点 ， 请 单 击 绒 点 名 称 左 侧 的 单 选 按 钮 ， 然 后 单 击 Actions 表单 项 ， 
接 痢 在 出 现 的 亲 单 中 单 击 Delete。 

成 功 删 除 端 点 后 ， 你 将 不 再 为 此 文 付 AWS 费用 。 当 你 在 Endpoints 页 面 的 底部 看 到 “There 
are currently no resources” 时 ， 可 以 确认 所 有 端点 已 删除 ， 如 图 6-10 所 示 。 
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Amazon SageMaker Endpoints 
Endpoints Create endpoint 
Q Search endpoints 1 兮 
Name 了 ARN Creation time 时 Status 丈 Last updated 


There are currently no resources. 全 一 、 一 病 点 已 成 功 删 除 


图 6-10 已 删除 端点 


现在 ，Kiara 可 以 使 用 5.7% 的 MAPE 来 预测 每 个 分 文 机 构 的 能 耗 ， 而 且 重 要 的 是 ,她 可 以 回 
老板 展示 她 预测 的 每 个 分 文 机 构 的 能 耗 图 表 。 


6.9 小结 


口 时 间 序 列 数 据 由 特定 时 间 间 隔 的 多 个 观察 值 组 成 。 你 可 以 将 时 间 序 列 数据 可 视 化 为 折线 图 。 
口 Jupyter 笔记 本 和 pandas 库 是 用 于 转换 时 间 序 列 数 据 和 创建 数据 折线 图 的 出 色 工 具 。 

口 Matplotlib 是 一 个 Python 图 表 库 。 

口 Jupyter 的 命令 以 符号 s 开 头 。 你 在 Jupyter 笔记 本 中 看 到 的 以 8 或 ss 开头 的 命令 被 称 为 魔术 


口 for 循环 是 你 在 数据 分 析 和 机 希 学 习 中 使 用 的 最 向 见 的 循环 类 型 。enumerate 六 数 可 以 
让 你 跟踪 循环 遍历 列表 的 次 数 。 

口 神经 网 络 (有 了 时 也 被 称 为 深度 学 习 ) 是 监督 机 可 学 习 的 一 个 例子 。 

口 你 可 以 使 用 SageMaker 的 DeepAR 模型 来 构建 神经 网 络 。 

口 DeepAR 是 Amazon 的 时 间 序 列 神经 网 络 算法 , 它 可 以 将 与 时 间 序 列 数 据 相 关 的 类 型 作为 
输入 ， 并 目 动 将 数据 合并 到 数据 集中 所 有 时 间 序 列 的 全 局 模型 中 ， 以 预测 未 来 事件 。 

口 你 可 以 使 用 DeepAR 来 预测 能 耗 。 


























优化 你 公司 的 每 月 能 耗 预测 





口 为 分 析 过 程 补 充 额 外 的 数据 
口 使 用 pandas 库 填充 缺失 值 
口 可 视 化 你 的 时 间 序 列 数据 

口 使 用 神经 网 络 生成 预测 结 

口 使 用 DeepAR 预测 能 耗 


在 第 6 章 中 ， 你 与 Kiara 合作 开发 了 一 个 AWS SageMaker DeepAR 模型 ， 以 预测 公司 48 个 
分 文 机 构 的 能 耗 。 你 有 的 仅 是 每 个 分 文 机 构 一 年 多 一 点 的 数据 ， 而 你 预测 的 2018 年 11 月 能 耗 的 
平均 百分比 误差 小 于 6%。 这 令 人 惊叹 ! 接 下 来 通过 补充 其 他 用 于 分 析 的 数据 并 填充 所 有 缺失 值 
来 扩展 这 种 场景 。 首 先 ， 我 们 来 深入 了 解 一 下 DeepAR。 


7.1 DeepAR 对 周期 性 事件 的 处 理 能 


DeepAR 算法 能 够 从 第 6 草 的 数据 中 识别 出 诸如 每 周 趋势 等 模式 。 几 7-1 显示 了 11 月 的 33 
号 分 文 机 构 的 预测 能 耗 和 实际 能 耗 。 该 分 文 机 构 的 每 周 模 式 非 凋 稳 定 。 











实际 能 耗 





只 言 中 吕 
5 5 5 3 





预测 能 耗 (80% 置 信和 度 ) 





图 7-1 使 用 你 在 第 6 章 中 构建 的 DeepAR 模型 对 比 33 号 分 文 结构 的 预测 能 耗 与 实际 
能 耗 


你 和 Kiara 是 公司 的 英雄 。 公司 的 简报 用 了 一 个 两 页 的 版 面 来 展示 你 和 Kiara, 还 展示 了 你 对 
12 月 的 预测 。 不 笠 的 是 ，! 月 来 临 的 时 候 ， 任 何 看 到 这 张 照 厂 的 人 部 会 注意 到 你 对 12 月 的 预测 
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并 不 是 那么 准确 。 对 你 和 Kiara 来 说 幸运 的 是 ， 并 没有 多 少 人 注意 到 ， 因 为 大 部 分 员工 在 圣诞 市 
期 间 放 假 ， 而 一 些 分 支 结构 也 会 有 强制 停止 营业 的 时 间 。 

“等 一 下 !” 你 和 Kiara 在 讨论 12 月 的 预测 为 什么 不 那么 准确 时 同时 说 道 ,“ 由 于 员工 休假 和 
强制 性 停业 ， 难 怪 12 月 的 预测 不 那么 准确 。” 

当 你 在 时 间 序 列 数据 中 直到 少见 但 仍 定 期 发 生 的 事件 时 ,如 圣诞 节 停 工 , 只 要 你 有 足够 的 历 
史 数 据 供 机 融 学 习 模 型 掌握 趋势 ， 你 的 预测 仍 将 是 准确 的 。 你 和 Kiara 需要 使 用 数 年 的 能 耗 数据 
才能 让 你 的 模型 获得 圣诞 节 停 业 的 趋势 .但 你 无 法 这 么 做 , 因为 智能 电表 在 2017 年 11 月 才 安 装 。 
那 你 应 该 怎么 做 呢 ? 

对 你 (和 Kiara ) 来 说 笠 运 的 是 ，SageMaker DeepAR 是 一 个 神经 网 络 ， 特 别 擅长 将 几 个 不 同 
的 时 间 序 列 数 据 集 纳入 预测 过 程 中 ,这些 数 据 集 可 以 用 来 解释 你 时 间 序 列 预测 中 那些 你 的 时 间 序 
列 数据 不 能 直接 推断 的 事件 。 

为 了 演示 其 工作 原理 ， 图 7-2 展示 了 某 个 典型 月 份 的 时 间 序 列 数 据 。x 轴 显 示 的 是 每 个 月 的 
天 数 。y 轴 显 示 的 是 每 天 的 能 耗 。 阴 影 区 域 是 具有 80% 置 信 区 间 的 预测 能 耗 。80% 的 置信 区 间 意 
味 着 每 S 天 中 有 4 天 将 落 入 该 范围 。 黑 线 展 示 的 是 当天 的 实际 能 耗 。 在 图 7-2 中 ， 你 可 以 看 到 实 
际 能 耗 落 在 该 月 每 一 天 的 置信 区 间 内 。 
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图 7-2 正常 月 份 的 实际 能 耗 与 预测 能 耗 的 对 比 
图 7-3 展示 了 从 当月 的 10 日 到 12 日 停止 营业 的 一 个 月 。 你 可 以 看 到 这 几 天 的 实际 能 耗 下 降 
了 ， 但 预测 能 耗 并 没有 对 此 有 所 预料 。 


一 一 Actual 
ED 80% confidence interval 





停 业 期 Day of month 
图 7-3 ”一 个 有 停业 期 的 月 份 的 实际 能 耗 与 预测 能 耗 的 对 比 








有 3 种 原因 可 能 导致 无 法 正 硝 预测 停业 期 间 的 能 耗 数据 .首先 , 保 业 是 一 个 定期 友 生 的 事件 ， 
但 DeepAR 算法 没有 足够 的 历史 数据 来 捕获 到 重复 事件 。 其 次 ,停业 不 是 一 个 重复 事件 〈 所 以 无 
法 在 历史 数据 中 体现 ), 但 是 是 一 个 可 以 通过 其 他 数据 集 识别 的 事件 。 例 如 ，Kiara 的 公司 计划 在 
12 月 关闭 某 个 分 文 机 构 儿 天 。 尽 管 历史 数据 集 没 有 展示 该 事件 ， 但 如 采 模 型 将 计划 的 人 员 排 班 
作为 其 中 一 个 时 间 序 列 ， 那么 可 以 预测 该 事件 对 能 耗 的 影响 。 下 一 市 将 更 证 细 地 讨论 该 问题 。 最 
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后 ,停业 是 没有 计划 的 , 也 没有 可 以 纳入 的 数据 集 来 展示 停业 情况 。 这 方面 的 一 个 例子 是 由 于 员 
工 罢 工 导 致 的 工作 中 断 。 除 非 你 的 模型 可 以 预测 员工 积极 性 ,否则 你 的 机 各 学习 模 型 无 法 预测 这 
些 时 期 的 能 耗 。 


7.2 ”DeepAR 的 最 大 优势 : 整合 相关 的 上 时间 序列 


为 了 帮助 DeepAR 模型 预测 趋势 ， 你 需要 为 其 提供 展示 趋势 的 额外 数据 。 例 如 ,你 知道 在 停 
业 期 间 ， 只 有 少数 员工 排 班 了 。 如 果 你 可 以 将 该 数据 输入 DeepAR 算法 , 那么 它 就 可 以 使 用 该 信 
息 来 预测 停业 期 间 的 能 耗 。 

图 7-4 展示 了 停业 期 间 所 在 月 份 的 在 岗 员 工 的 数量 。 可 以 看 到 ， 大 多 数 情 况 下 在 岗 的 员工 有 
10~15 名 , 但 10 日 、11 日 和 12 日 只 有 4~6 名 员工 在 岗 。 
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图 7-4 集 业 期 间 所 在 月 份 的 在 网 员 工 数量 


如 条 你 可 以 将 该 时 间 序 列 整合 到 DeepAR 模型 中 ， 那 么 就 能 更 好 的 预测 未 来 能 耗 。 图 7-5 展 
示 了 在 DeepAR 模型 中 同时 使 用 历史 能 耗 数 据 和 在 六 员工 数据 的 预测 绪 
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图 7-5 整合 历史 数据 与 在 网 员工 数据 的 能 耗 预 测 结 








在 本 半 中 , 你 将 学 习 如 何 将 额外 的 数据 集 整 合 到 DeepAR 模型 中 ,以 提高 模型 在 已 知 将 要 发 
生 的 非 周 期 性 事件 或 者 是 周期 性 事件 ， 却 没有 足够 的 历史 数据 来 整合 到 模型 预测 中 时 的 准确 率 。 


7.3 整合 额 儿 





\ 的 数据 集 到 Kiara 的 能 耗 模型 


在 第 6 章 中 , 你 帮助 Kiara 构建 了 DeepAR 模型 , 该 模型 可 以 预测 其 公司 拥有 的 41 个 分 文 机 
构 的 能 耗 。 该 模型 在 预测 11 月 的 能 耗 时 效果 很 好 ,但 在 预测 12 月 的 能 耗 时 歼 采 不 佳 ， 因 为 某 些 
分 文 机 构 减 少 了 营业 时 间或 者 完全 俘 业 。 
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为 外 ,你 注音 到， 由 于 温度 变化 ， 能 耗 会 出 现 季 慷 性 波动 ， 并 且 不 同类 型 的 分 支 机 构 有 不 同 
的 能 耗 模 式 。 有 些 类 型 的 分 文 机 构 每 个 周末 痢 会 侣 业 ， 而 态 一 些 分 文 机 构 每 天 神 会 彰 业 。 在 杜 
Kiara 讨论 后 你 意识 到 ， 有 些 分 文 机 构 是 零售 机 构 ， 而 羽 一 些 分 文 机 构 则 负责 工业 或 交通 相关 的 
领域 。 

在 本 革 中 ,你 要 构建 的 笔记 本 会 整合 以 下 数据 。 具 体 来 说 , 你 会 将 以 下 数据 集 补充 到 第 6 章 
使 用 的 能 耗 计 量 数据 。 

口 分 支 机 构 类 别 一 一 表明 堆 售 、 工 业 或 者 运输 分 文 机 构 。 

口 分 支 机 构 假 期 一 一 表明 分 文 机 构 是 否 何 业 。 

D 分 支 机 构 最 高 温度 一 一 列 出 每 个 分 文 机 构 每 天 的 最 高 温度 预测 。 

接着 ， 你 将 使 用 这 3 个 数据 集训 练 模型 。 























不 同类 型 的 数据 集 
本 章 中 使 用 的 3 个 数据 集 可 以 分 为 2 种 类 型 。 
口 分 类 型 一 一 关于 分 支 机 构 不 变 的 信息 。 例 如 ， 数 据 集 分 支 机 构 类 别 包含 分 类 型 数据 。 
(分 支 机 构 是 零售 分 支 机 构 ， 且 很 可 能 永远 是 零售 分 支 机 构 ) 
口 动态 型 一 一 随时 间 变 化 的 数据 。 假 期 和 预测 的 最 高 温度 是 动态 数据 的 示例 。 
在 预测 12 月 的 能 耗 时 ， 你 将 使 用 12 月 的 计划 假期 时 间 表 和 该 月 的 预测 温度 。 


7.4 准备 构建 模型 
与 前 几 章 一 样 ， 你 需要 执行 以 下 操作 以 在 SageMaker 中 设置 另 一 个 笔记 本 , 并 优化 你 的 预测 


十 
结 





(1) 从 S3 下 载 为 本 和 草 准 备 的 笔记 本 。 

(2) 在 AWS SageMaker 上 设置 运行 笔记 本 的 文件 夹 。 

(3) 将 笔记 本 上 传 到 AWS SageMaker。 

(4) 从 S3 存储 桶 下 载 数 据 集 。 

(5) 在 S3 存储 桶 中 创建 文件 夹 以 保存 数据 集 。 

(6) 将 数据 集 上 传 到 你 的 AWS S3 存储 桶 。 

由 于 你 已 经 按照 前 面 章 市 中 的 步骤 进行 了 操作 ， 因 此 ， 本 章 将 简要 介绍 这 些 步 又 。 


7.4.1 下 载 我 们 准备 的 笔记 本 


我 们 准备 了 本 章 要 使 用 的 笔记 本 。 
将 此 文件 保存 在 你 的 计算 机 上 。 在 步骤 (3) 中 ， 你 要 将 其 上 传 到 SageMaker。 
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7.4.2 ”在 SageMaker 上 设置 文件 夹 


页 面 跳 转 到 AWS SageMaker， 然 后 从 左 侧 及 单 中 选择 Notebook instances。 如 果实 例 已 集 目 ， 
则 需要 局 动 它 。 局 动 后 ， 单 击 Open Jupyter。 

这 将 打开 一 个 新 的 选项 卡 , 并 向 你 展示 SageMaker 中 的 文件 夹 列 表 。 如 果 你 已 按照 前 几 章 进 
行 了 操作 , 那么 前 面 的 每 章 都 会 有 一 个 文件 夹 。 为 本 草创 建 一 个 新 文件 夹 , 我 们 将 其 命名 为 ch07。 








7.4.3 将 笔记 本 上 传 到 SageMaker 


单 击 你 刚刚 创建 的 文件 夹 ， 然 后 单 击 Upload 以 上 传 笔记 本 。 选 择 你 在 步骤 (中 下 载 的 笔记 
本 ， 然 后 将 其 上 传 到 SageMaker。 图 7-6 展示 了 上 传 笔 记 本 后 SageMaker 文件 夹 的 样子 。 








JU pyter Open JupyterLab Quit 
Files Running Clusters SageMaker Examples Conda 
Select items to perform actions on them. Upload | Newr | DO 
0lr|/ ch07 Name yy Last Modified File size 
Es seconds ago 
习 energy consumption additional datasets.ipynb 8daysago 1.84 MB 








将 笔记 本 上 传 到 SageMaker 
图 7-6 在 S3 上 查看 上 传 的 笔记 本 energy consumption additional datasets 





7.4.4 从 S3 存储 桶 下 载 数据 集 


我 们 将 本 章 的 数据 集 存 储 在 一 个 S3 存储 桶 中 ， 可 以 在 随 书 代码 中 找到 。 

你 在 本 章 使 用 的 能 耗 数 据 由 BidEnergy 提 供 ， 该 公司 专注 于 人 研究 能 耗 预 测 和 能 耗 最 小 化 。 
BidEnergy 使 用 的 算法 比 本 章 介 绍 的 更 加 复杂 , 但 你 仍 可 以 大 人 臻 了 解 机 带 学 习 ( 尤其 是 神经 网 络 ) 
如 何 应 用 于 预测 问题 。 


7.4.5 在 S3 上 创建 文件 来 以 保存 你 的 数据 


在 AWS S3 中 ， 跳 转 到 你 在 前 面 草 方 创建 用 来 保存 数据 的 存储 桶 ， 然 后 创建 为 一 个 文件 夹 。 
我 们 用 来 保存 数据 的 存储 桶 名 为 mlforbusiness。 你 的 存储 桶 名 称 由 你 决定 。 单 击 存储 桶 后 ， 
创建 一 个 文件 夹 来 保存 你 的 数据 ， 并 将 其 命名 为 ch07。 
7.4.6 ”将 数据 集 上 传 到 你 的 AWS 存 储 桶 
在 S3 创建 文件 夹 后 ， 上 传 步 又 (4) 中 下 载 的 数据 集 。 图 7-7 展示 了 S3 文件 夹 。 
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Services vv Resource Groups ~ 食 
Amazon S3 >” mlforbusiness > cho7 


Overview 


Q Type aprefix and press Enter to search. Press ESC to clear. 
起 Upload 中 Create folder 





Name v 


[9 site_holidays.csv 


UD 

[1 口 meter_ data_dailycsv 上 传 的 数据 集 
[| OD site_categories.csv 一 

国 


[9 site_maximums.csv 





图 7-7 查看 上 传 到 S3 的 CSV 数据 集 


7.5 构建 模型 


将 数据 上 传 到 S3 以 及 将 笔记 本 上 传 到 SageMaker 后 ， 你 现在 就 可 以 开始 构建 模型 了 。 与 前 
几 草 一 样 ， 你 将 执行 以 下 步骤 。 

口 设置 笔记 本 。 

口 导入 数据 集 。 

口 将 数据 转换 为 正确 的 格式 。 

口 创建 训练 集 和 测试 集 。 

口 配置 模型 并 构建 服务 器 。 

口 进行 预测 并 绘制 结 





7.5.1 第 一 部 分 : 设置 笔记 本 


代码 清单 7-1 展示 了 你 的 笔记 本 设置 。 你 需要 将 第 1 行 的 值 更 改 为 在 S3 上 创建 的 存储 桶 名 
称 , 然后 将 第 2 行 更 改 为 你 在 该 存储 桶 上 存储 数据 的 子 文件 来 。 第 3 行 设置 为 在 该 笔记 本 中 创建 
的 训练 数据 和 测试 数据 的 位 置 ， 第 4 行 设置 保存 模型 的 位 置 。 
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代码 清单 7-1 设置 笔记 本 





存储 数据 的 
data bucket = 'mlforbusiness' S3 存储 桶 存储 数据 的 S3 桶 的 
subfolder = 'ch07' 子 文件 夹 
Ss3_data path = \ x ee 
训练 数据 和 测试 
f"s3://{data bucket}/{subfolder}/data 数据 的 存储 路 径 
s3_output path = \ 
f"s3://{data bucket}/{subfolder}/output" 模型 的 存储 
路 径 


代码 清单 7-2 将 导入 笔记 本 所 需 的 模块 。 这 与 第 6 章 导 和 的 模块 相同 , 所 以 这 里 不 进行 说 明了 。 
代码 清单 7-2 导入 Python 模块 和 库 


smatplotlib inline 


from dateutil.parser import parse 
limport json 

limport random 

import datetime 

limport os 


import pandas as pd 
limport boto3 

import s3fs 

limport sagemaker 

import numpy as np 

import pandas as pd 

import matplotlib.pyplot as plt 

role = sagemaker.get _ execution role() 

s3 = s3fs.S3FileSystem(anon=False) 

s3_data path = f"s3://{data bucket}/{subfolder}/data" 


s3_output_path = f"s3://{data bucket}/{subfolder}/output" 


完成 后 ， 你 就 可 以 导入 数据 集 了 。 
7.5.2 ”第 二 部 分 : 导入 数据 集 


与 其 他 章 蔬 不同, 在 该 笔记 本 中 ,你 将 上 传 4 种 类 别 的 数据 集 : 电 和 表 、 分 文 机 构 类 别 、 假 期 
和 最 高 温度 。 代 码 清 单 7-3 展示 了 如 何 导 入 电表 数据 。 


代码 清单 7-3 导入 电表 数据 
daily_df = pd.read csvl 
f's3://{data bucket}/{subfolder}/meter data daily.csv', 
index_ col=0, 
parse_ dates=[0]) 
daily_df.index.name = None 
daily_df.head() 


你 将 在 本 章 使 用 的 电表 数据 还 多 了 几 个 月 的 观测 值 。 在 第 6 章 中 , 数据 范围 为 2017 年 10 月 至 
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2018 年 10 月 。 本章 的 数据 集 包 含 了 2017 年 11 月 到 2019 年 2 月 的 电表 数据 , 如 代码 清单 7-4 所 示 。 
代码 清单 7-4 ”展示 电表 数据 的 信息 


print (daily_df.shape) 
print (f'timeseries starts at {daily_df.index[0]} \ 
and ends at {daily_df.index[-1]}') 


代码 清单 7-5 展示 了 如 何 导 入 分 文 机 构 类 别 数据 。 有 3 种 类 型 的 分 文 结 构 : 
口 委 售 
口 工业 
口 运输 


代码 清单 7-5 ”展示 分 文 机 构 类 别 的 信息 

Category_df = pd.read csyv 
(f's3://{data bucket}/{subfolder}/site categories.csy', 
lindex col=0 
) .reset_index (drop=True) 

print (category_df.shape,) 

print (category_df.Category.uniqgque()) 

category_df.head() 


在 代码 清单 7-6 中 ， 你 将 导入 假期 数据 。 工 作 日 和 正常 周末 标记 为 0， 假 期 标记 为 1。 由 于 
DeepAR 可 以 从 分 文 机 构 的 电表 数据 中 提取 该 模式 ， 因 此 无 须 将 所 有 周末 神 标 记 为 假期 。 尽 管 你 
没有 足够 的 分 文 机 构 数据 来 让 DeepAR 识别 出 年 度 模式 , 但 如 果 DeepAR 能 够 访问 到 展示 每 个 分 
文 结构 假期 的 数据 集 ， 就 可 以 计算 出 该 模式 。 


代码 清单 7-6 展示 每 个 分 文 机 构 的 假期 信息 
holiday_df = pd.reaqd csvl( 
f's3://{data bucket}/{subfolder}/site holidays.csv', 
index_ col=0, 
parse_ dates=[0]) 
print (holiday_df.shape) 
print (f'timeseries starts at {holiday_df.index[0]} \ 
and ends at {holiday_df.index[-1]}') 
holiday_df.loc['2018-12-22':'2018-12-277'|] 


代码 清单 7-7 展示 了 每 个 分 文 机 构 每 天 达到 的 最 高 温度 。 这 些 分 文 机 构 位 于 澳大利亚 , 因此 ， 
夏季 升温 时 开 空 调 导致 能 耗 增加 ; 而 在 温和 的 气候 条 件 下 , 冬季 气温 下 降 到 零 摄 氏 度 以 下 时 供暖 
导致 能 耗 增加 。 


代码 清单 7-7 ”展示 每 个 分 文 机 构 最 高 温度 的 信息 

max_df = pd.reaaQ_ csSsVv( 
f's3://{data_ bucket}/{subfolder}/site maxlmums .csSsVv' ， 
index_ col=0, 
parse_ dates=[0]) 

print (max_df.shape) 

print (f'timeseries starts at {max df.index[0]} \ 

angd ends at {max_ df.index[-1]}') 
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有 了 这 些 ， 你 就 可 以 将 数据 加 载 到 笔记 本 中 了 。 回 顾 一 下 ， 对 于 每 个 分 文 机构 ， 从 2018 年 
11 月 1 日 到 2019 年 2 月 28 日 的 每 一 天 ， 你 都 从 CSV 文件 中 加 载 了 以 下 数据 : 

口 能 耗 ; 

口 分 文 机 构 类 别 〈 和 零售 、 工 业 和 运输 ); 

口 假期 信息 (1 代表 假期 ，0 代 表 工 作 日 或 正常 周末 ); 

口 分 支 机构 达 到 的 最 高 温度 。 

现在 ， 你 要 将 数据 转换 为 正确 的 格式 以 训练 DeepAR 模型 。 


7.5.3 ”第 三 部 分 : 将 数据 转换 为 正确 的 格式 


当 数 据 加 载 到 DataFrame 中 后 ， 你 现在 可 以 准备 好 数据 集 以 训练 DeepAR 模型 了 。 每 个 数据 
集 的 格式 相同 : 每 个 分 支 机 构 为 一 列 ， 每 天 为 一 行 。 

本 节 你 将 确保 每 一 列 和 每 一 行 中 都 不 会 出 现 有 问题 的 缺失 值 。DeepAR 非常 擅长 处 理 训练 数 
据 中 的 缺失 值 , 但 无 法 处 理 用 于 预测 的 数据 中 的 缺失 值 。 为 了 确保 在 进行 预测 时 不 会 出 现 烦人 的 
错误 ， 你 需要 补充 预测 范围 中 的 缺失 值 。 你 将 使 用 2018 年 11 月 1 日 到 2019 年 1 月 31 日 这 段 时 
间 的 数据 来 训练 模型 ,并 使 用 2018 年 12 月 1 日 到 2019 年 2 月 28 日 这 段 时 间 的 数据 来 测试 模型 。 
这 意味 着 ， 对 于 你 的 预测 范围 来 说 ， 从 2018 年 12 月 1 日 到 2019 年 2 月 28 日 的 数据 中 不 能 有 任 
何 缺 失 。 代 码 清单 7-8 将 所 有 0 值 蔡 换 为 None， 然 后 检查 缺失 的 能 耗 数 据 。 


代码 清单 7-8 检查 缺失 的 能 耗 数据 
daily_df = aqally aqf.replacel([0]，L[None]) 
daily_dfldaily_df.isnull() .any (axis=1)|].index 


可 以 从 输出 中 看 到 , 在 2018 年 11 月 有 几 天 缺失 数据 ,因为 那 是 安 半 智能 电表 的 月 份 , 但 是 在 
2018 年 11 月 之 后 没有 缺失 数据 。 这 意味 着 你 无 须 对 该 数据 集 做 任何 操作 , 因为 没有 缺失 预测 数据 。 

代码 清单 7-9 检查 缺失 的 类 别 数据 。 同 样 ， 没 有 缺失 的 类 别 数据 ， 所 以 你 可 以 来 看 看 缺失 的 
假期 数据 和 最 高 温度 数据 。 


代码 清单 7-9 检查 缺失 的 类 别 数据 和 假期 数据 
print (f'{len(category_df[lcategory_df.isnull() .any (axis=1)])} \ 
sites with missing categories.') 
print (f'{len(holiday_df[holiday_df.isnull() .any (axis=1)])} \ 
days with missing holidays.') 


代码 清单 7-10 检查 缺失 的 最 高 温度 数据 。 有 好 几 天 没有 最 高 温度 值 。 这 是 一 个 问题 ， 但 很 
容易 解决 。 
代码 清单 7-10 ”检查 缺失 的 最 高 温度 数据 


print (f'{len(max df[lmax df.isnull() .any (axis=1)])} \ 
days with missing maximum temperatures.') 




































































代码 清单 7-11 采用 interpolate 图 数 来 填充 时 间 序 列 的 缺失 数据 。 在 缺失 其 他 信息 的 情况 
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下 ， 推 其 缺失 值 (《 如 温度 时 间 序 列 ) 的 最 好 方法 是 基于 时 间 的 线性 插值 法 。 
代码 清单 7-11 修复 缺失 的 最 高 温度 数据 


max_df = max _ df.interpolate (method='time') 
Pint(f'{len(max adqf[max df.isnull() .any (axis=1)])} \ 内 插 缺 失 值 
days with missing maximum temperatures. Problem solved!') 








为 了 确保 你 查看 的 数据 与 我 们 在 第 6 章 使 用 的 数据 类 似 , 下 面 直观 地 看 看 数据 ,在 第 6 章 中 ， 
你 学 习 了 如 何 使 用 Matplotlib 展示 多 个 图 表 。 回 顾 一 下 , 代码 清单 7-12 展示 了 用 于 展示 多 个 图 表 
的 代码 。 第 1 行将 图 表 的 形状 设置 为 6 行 x2 列 。 第 2 行 创建 了 一 个 可 以 循环 遍历 的 序列 。 第 3 
行 设置 将 要 展示 的 12 个 分 文 机 构 。 第 4~7 行 设置 每 个 图 表 的 内 容 。 


代码 清单 7-12 ”修复 缺失 的 最 蜗 温 度数 据 








print ('Number of timeseries:',daily_df.shapell1l]) 
fig, axs = plt.subplotsl( 
6 ， 设置 图 表 的 形状 
2 为 6 行 x2 列 
flgqslze=(20，20)， 分署 多 示 以 
sharex=True) | 从 6x2 的 图 表 中 ee 
axx = axs.ravel ( ) 创建 一 个 序列 





ee 6727733 .942,43 ,006,47] 循环 遍历 分 支 机 构 列表 并 
| 获取 每 个 分 支 机 构 的 编号 


plot_ num = indices.index(i) 
daily_dfldaily_df.columns[1i]].locl[ 


"2017-11-01":"2019-02-28" 获取 图 表 的 
Blot lax=axx[bLor mml) 数据 设置 图 表 x 轴 的 标签 
axx[plot _ num] .set xlabel ("date") 


axx[plot _ num] .set_ ylabel ("kW consumption") 


| 设置 图 表 y 轴 的 标签 
图 7-8 展示 了 代码 清单 7-12 的 输出 结果 。 在 笔记 本 中 ， 因 为 图 表 形 状 是 6 行 x2 列 ， 所 以 你 
还 可 以 看 到 另外 8 个 图 表 。 


每 个 图 表 展 示 从 2017 年 11 月 到 
2019 年 2 月 的 每 日 能 耗 波动 . 


Number of time series: 48 
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图 7-8 分支 机 构图 表 展 示 了 从 2017 年 11 月 到 2019 年 2 月 的 温度 波动 
完成 后 ， 你 可 以 开始 准备 训练 集 和 测试 集 了 。 
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7.5.4 第 四 部 分 : 创建 训练 集 和 测试 集 


在 上 一 节 ， 你 已 将 每 个 数据 集 加 载 到 pandas DataFrame 中 ， 并 修复 了 所 有 缺 失 值 。 本 市 你 将 
把 DataFrame 转换 成 列表 以 创建 训练 数据 和 测试 数据 。 
代码 清单 7-13 将 类 别 数据 转换 为 数值 列表 。 从 0 到 2 的 每 个 数 分 别 代表 这 些 类 别 中 的 一 个 : 


代码 清单 7-13 ”将 类 别 数 据 转换 为 数字 列表 


cats = list(category_df.Category.astype('category') .cat .codqes ) 
print (cats) 


代码 清单 7-14 将 能 耗 数据 转换 为 列表 的 列表 。 每 个 分 文 机 构 的 数据 都 是 一 个 列表 ， 一 共有 
48 个 这 样 的 列表 。 


代码 清单 7-14 ”将 能 耗 数据 转换 为 列表 的 列表 


Usade per Site = [daily_ dflcol] for col in daily_df.columnsl] 




















print (f'timeseries covers {len(usage per_ site[0])} days.') 

四 1 四 | 1 1 从 0 号 分 支 机 构 开 始 ， 
Print (f'timeseries starts at {usage per sitel[0].index[0]}') Na 人 
print (f'timeseries ends at {usage per_ sitel[0].index[-1]}') 展示 疝 10 天 的 能 耗 














usage_per_site[0][:10] 


代码 清单 7-15 对 假期 数据 重复 此 操作 。 
代码 清单 7-15 ”将 假期 数据 转换 为 列表 的 列表 


hols_per_site = [holiday_df[lcol] for col in holiday_df.columns] 
print (f'timeseries covers {len(hols per site[0])} days.') 

print (f'timeseries starts at {hols per sitel[0] .index[0]}') 
print (f'timeseries ends at {hols per sitel0].index[-1]}') 

hols_ per_site[0][:10] 


代码 清单 7-16 对 最 高 温度 数据 重复 此 操作 。 
代码 清单 7-16 ”将 最 高 温度 数据 转换 为 列表 的 列表 


max per_site = [max df[lcol] for col in max df.columns] 


'timeseries covers {len(max per_sitel[0])} days.') 
print (f'timeseries starts at {max per_ site[0].index[0]}') 
E 
S 


























'timeseries ends at {max per_ sitel[0].index[-1]}') 
ite[0][:10] 





将 数据 格式 化 为 列表 后 ， 你 可 以 将 其 分 为 训练 数据 和 测试 数据 ， 然 后 将 文件 写 入 S3。 代 码 
清单 7-17 将 测试 数据 和 训练 数据 的 开始 日 期 设置 为 2017 年 11 月 1 日。 然后 将 训练 数据 的 结束 日 
期 设置 为 2019 年 1 月底， 并 将 测试 数据 的 结束 日 期 设置 为 28 天 后 ( 即 2019 年 2 月 底 )。 


代码 清单 7-17 ”为 测试 数据 和 训练 数据 设置 开始 和 结束 日 期 
EE DD 
prediction length = 28 
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start_date = pd.Timestamp ("2017-11-01", fregq=freqg) 
end_ training = pd.Timestamp ("2019-01-31", freq=freqg) 
end_ testing = engd training + prediction length 


print (f'Engd training: {engd training}, End testing: {engd testing}') 


就 像 在 第 6 半 中 所 做 的 那样 ， 你 现在 创建 了 一 个 简单 的 函数 ， 如 代码 清单 7-18 所 示 ， 该 函 
数 将 每 个 数据 集 写 入 S3。 在 代码 清单 7-19 中 ， 你 将 对 测试 数据 和 训练 数据 应 用 该 函数 。 


代码 清单 7-18 创建 一 个 将 数据 号 人 S3 的 函数 
def write dicts to s3(path, data): 
with s3.o0pen(path, 'wb') as f: 
for d in data: 
f.write(jJson.dumps (d) .encode ("utf-8")) 
f.write("\n".encode('utf-8')) 


代码 清单 7-19 会 创建 训练 集 和 测试 集 。DeepAR 需要 将 分 类 型 数据 和 动态 特征 分 开 。 请 注意 
在 代码 清单 7-19 中 是 如 何 完 成 的 。 


代码 清单 7-19 创建 训练 集 和 测试 集 








ee 表示 分 支 机 构 类 别 的 
ee 分 类 型 数据 
"start": str(start_date), 
"target": ts[start date:end trainingl] .tolist(), 
"aynanmlce feate"m ,| 
holsl 
start_date:engd training 
] :COLTS (Gy; 
maxesl | 假期 的 动态 数据 
start_date:engd training 
J] tolLeEeE.0).; 
注意 . 和信 全 的 集 公 
Oe 最 高 温度 的 动态 数据 


for cat, ts, hols, maxes in Zip( 
Cats, 
Usage_per_site, 
hols_per_site, 
max_per_site,) 


] 


test ‘data | 
{ 

EGG 

"start": str(start_date), 

"target": ts[start date:eng testing] .tolist(), 

"dynamic feat": [| 
hols[start date:engd testing] .tolist(), 
maxes[lstart date:engd testing] .tolist(), 

] # 注意 : 集合 的 集合 


for cat, ts, hols, maxes in Zip( 
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Cats, 
Usage _ per_site, 
hols_per_site, 
max_per_site,) 


] 


write dicts to s3(f'{s3 _ data path}/train/train.Jjson', training_ data) 
write dicts to s3(f'{s3 _ data path}/test/test.json', test _ data) 


本 章 设 置 笔记 本 的 方式 与 前 儿童 略 有 不 同 。 本章 是 关于 如 何 使 用 额外 数据 集 (〈 例如 分 文 机 构 
类 别 、 假 期 和 了 最 高 温度 ) 来 提高 时 间 序 列 预测 的 准确 性 。 

为 了 证 你 看 到 这 些 御 外 数据 集 对 预测 的 影响 , 我 们 准备 了 一 个 删除 注释 的 笔记 本 单元 格 , 该 
单元 格 在 不 使 用 额外 数据 集 的 情况 下 构建 和 测试 模型 。 如 果 你 有 兴趣 看 此 绪 采 , 可 以 取消 笔记 本 
该 部 分 的 注释 ， 并 重新 运行 整个 笔记 本 。 如 末 这 么 做 ,你 将 看 到 ， 不 使 用 额外 数据 集 ，2 月 的 
MAPE 为 20%! 继续 本 章 的 内 容 ， 以 了 解 将 额外 数据 集 纳入 模型 中 时 会 直到 的 问题 。 
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代码 清单 7-20 设置 了 在 S3 上 存储 模型 的 位 置 ， 并 确定 SageMaker 如 何 配置 用 来 构建 模型 的 
服务 融 。 在 这 一 点 上 ， 你 通 篆 会 设置 一 个 随机 种 和子， 以 确保 每 次 运行 DeepAR 算法 都 能 生成 一 致 
的 结果 。 在 撰写 本 文 时 ，SageMaker 的 DeepAR 模型 存在 不 一 致 之 处 一 一 该 功能 不 可 用 。 它 不 会 
影响 结果 的 准确 性 ， 只 会 影响 结果 的 一 致 性 。 


代码 清单 7-20 ”设置 SageMaker 会 话 和 服务 器 以 构建 模型 
s3_output_ path = f's3://{data bucket}/{subfolder}/output' 


sess = sagemaker.Sessionl() 
image_ name = sagemaker.amazon.amazon estimator.get_image_ uril( 











sess.boto_ region name, 
"forecasting-deepar", 
"tt ) 


data channels = { 
"train": f"{s3_ data path}/train/", 
"test": f"{s3 data path}/test/" 

} 


代码 清单 7-21 用 于 计算 预测 结果 的 MAPE。 它 是 根据 你 预测 的 每 一 天 的 值 计算 的 ， 通 过 实 
味 能 耗 减 去 每 天 的 预测 能 耗 ， 其 结果 除 以 预测 值 ( 如 果 结 果 为 人 负 ， 则 取 绝 对 值 )， 然 后 取 所 有 结 
采 的 平均 值 。 

例如 ， 如 果 你 连续 3 天 的 预测 能 耗 为 1000 千瓦 ， 而 实际 能 耗 为 800 千 瓦 、900 千 瓦 和 1150 千 
瓦 ， 那 么 MAPE 为 (200/800) + (100/900) + (150/1150) 的 结果 除 以 3， 这 约 等 于 0.16， 即 16%。 











代码 清单 7-21 计算 MAPE 
def mape(y true，yY_ pred) : 
y_true, y_pred = np.array (y_true), np.array (y_pred) 
return np.mean (np.abs((y_true - y_pred) / y_true)) * 100 
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代码 清单 7-22 是 创建 DeepAR 模型 的 标准 SageMaker 星 数 。 你 无 须 修改 这 个 也 
笔记 本 单元 格 中 按 Ctrlt+Enter 组 合 键 就 可 以 运行 它 。 








代码 清单 7-22 ”第 6 章 使 用 过 的 DeepAR 的 predictor 困 数 


class DeepARPredictor (sagemaker.predictor.RealTimePpredictor): 

















def _ _ init (self, *args, **kwargs): 
super(). init _( 
*args, 
content_ type=sagemaker.content types.CONTENT TYPE_JSON, 
**kwargs) 


def predict\( 
self, 
ts, 
Cat=None, 
dynamic_ feat=None, 
num samples=100, 
return samples=False, 





udm nless uO. Ly "OD Oe OY 
prediction time = ts.index[-1] + 1 
aquantiles = [str(g) for gq in quantiles] 
req = self. encode _ reduest ( 

局 ; 

人 GE 


dynamic_ feat, 

num samples, 

return samples, 

aquantiles) 
res = super (DeepARPredictor, self) .predict (reqg) 
return self. decode response ( 

res, 

ts.index.freg, 

prediction time, 

return samples,) 





def _ encode request( 
self, 
ts, 
Cat, 
dynamic feat, 
num samples, 
return samples, 


quantiles): 
instance = series to dict( 
I 


cat if cat is not None else None, 
dynamic _ feat if dynamic feat else None) 
configuration = { 
"num samples": num samples, 
"output types": | 
"quantiles", 
"samples"] if return samples else ["gquantiles"], 
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"quantiles": gquantiles 
} 
http regquest data = { 
"instances": [instancel, 
"configuration": configuration 
} 


return json.dumps (http_regquest data) .encode('utf-8') 


def _ decode response ( 
self, 
response, 
freqg, 





prediction time, 
return samples): 
predictions = json.loadsl( 
response.decode('utf-8'))['predictions'][0] 
prediction length = len(next (iter!( 
predictions['gquantiles'] .values() 





) ) ) 

prediction index = pd.DatetimelIndex!\! 
start=prediction time, 
fregq=fredqd, 
periods=prediction length) 

if return samples: 
dict of samples = { 











'sample_' + str(i): s for i, Ss in enumerate 
predictions['samples']) 


else: 
dict of samples = {} 
return pd.DataFramel( 





data={**predictions['gquantiles'], 
**dict of _ samples}, 
index=prediction index) 


def set frequency (self, freqg): 
self.freq = fred 


def encode target (ts): 
return [x if np.isfinite(x) else "NaN" for x in tsl] 





def series to dict(ts, cat=None, dynamic feat=None): 
# 输入 一 个 pandas .Series， 返回 一 个 编码 时 间 序 列 的 dict 


ob] = {"start": str(ts.index[0]), "target": encode target (ts)} 
if cat is not None: 
obj["cat"] = cat 


if dynamic _ feat is not None: 
obj["dynamic_ feat"] = dynamic_ feat 
return ob] 


与 第 6 章 一 样 ， 你 现在 需要 设置 estimator, 然后 为 其 设置 参数 。SageMaker 会 为 你 展示 几 
个 参数 。 唯 一 需要 改变 的 两 个 参数 是 代码 清单 7-23 的 第 1 行 和 第 2 行 中 的 前 两 个 参数 : 
context_length (上 下 文 长 度 ) 和 prediction_length (预测 长 度 )。 
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上 下 文 长 度 是 用 于 进行 预测 的 最 短 时 间 。 将 此 值 设 置 为 90， 就 表示 你 希望 DeepAR 至 少 使 
用 90 天 的 数据 来 进行 预测 。 在 业务 环境 中 , 这 通常 是 一 个 不 错 的 选择 ， 因 为 它 可 以 捕获 季度 趋势 。 
预测 长 度 是 预测 的 时 间 段 。 在 此 笔记 本 中 ,你 正在 预测 2 月 的 数据 ,因此 将 prediction_length 
的 值 设 置 为 28 天 。 


代码 清单 7-23 ”设置 sstimator 


$$time 














estimator = sagemaker.estimator.Estimator\( 





sagemaker_session=sess, 

limage_ name=image_name, 

role=role, 

train instance count=1, 

train instance type='ml.c5.2xlarge', # $0.476 per hour as of Jan 2019 . 
base_Jjob name='ch7-energy-usage-dynamic', 














output_path=s3_output_path 设置 预测 长 度 为 
) NL 28 
设置 上 下 文 长 度 
estimator.set_hyperparameters( 为 90 天 tt pe 
context_length="90", 设置 频率 为 每 天 
prediction length=str(prediction length), 人 
_ 设置 迭代 次 数 为 400 
0 (保持 此 值 不 变 ) 
epochs="400", 访 
early_stopping_patience="40", 
mini batch size="64", 设置 提前 停止 次 数 为 40 
learning_rate="5E-4", (保持 此 值 不 变 ) 


num dynamic_ feat=2, 






) 


设置 批 大 小 为 64 
(保持 此 值 不 变 ) 





estimator.fit(inputs=data channels, wait=True) 


将 假期 和 温度 的 动态 特征 数量 将 学 习 率 设置 为 0.0005 〈 指 数值 
设置 为 2 保持 此 值 不 变 ) 5E-4 的 十 进 制 转换 ) 


代码 清单 7-24 创建 了 用 于 测试 预测 的 端点 。 在 下 一 章 中 ， 你 将 学 习 如 何 将 该 端点 发 布 到 互 
联网 上 ， 但 对 于 本 章 ， 驶 像 前 面 几 章 一 样 ， 你 将 使 用 笔记 本 中 的 代码 来 访问 端点 。 


代码 清单 7-24 “设置 端点 


enapolnt name = 'energy-usage-dynamic' 











[ws GVA 
sess.delete endpoint\( 
sagemaker .predictor.RealTimePpredictor!l 
endpoint=endpoint_name) .endpoint) 





print( 
'Warning: Existing endpoint deleted to make way for new endpoint.') 
from time import sleep 
sleep(30) 
excCept: 
pass 


现在 是 时 候 构建 模型 了 。 代 码 清单 7-25 构建 了 模型 并 将 其 赋予 变量 predictor。 
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代码 清单 7-25 构建 并 部 署 模型 
$$time 
predictor = estimator.deploy ( 
initial instance count=1, 








instance_ type='ml .m5 .large', 








predictor_cls=DeepARPredictor., 
endpoint_ name=endpoint_name) 


7.5.6 ”第 六 部 分 : 进行 预测 并 绘制 结果 


构建 好 模型 后 ， 可 以 对 2 月 的 每 一 天 进行 预测 ， 但 要 先 测 试 一 下 predictor， 如 代码 清单 
7-26 所 示 。 


代码 清单 7-26 ”检查 模型 的 预测 是 否 正 稼 
predictor.predictl( 
cat=[cats[0]], 
ts=usage per_sitel[l0l] [start date+30:engd trainingl], 
dynamic feat=[ 
hols per_sitel[l0l] [start date+30:engd training+28] .tolist(), 
max per_sitel[l0] [start date+30:engd training+28] .tolist(), 
| 
quantiles=[0.1, 0.5, 0.9] 
) .head () 


现在 你 知道 predictor 工作 正常 , 下面 就 可 以 对 2019 年 2 月 的 数据 进行 预测 。 但 在 执行 该 
操作 之 前 , 为 了 便于 计算 MAPE, 你 将 创建 一 个 名 为 usages 的 列表 来 存储 每 个 分 支 机 构 在 2019 
年 2 月 每 天 的 实际 能 耗 。 当 对 2 月 进行 预测 时 ， 你 将 结果 存储 到 名 为 predictions 的 列表 中 ， 如 
代码 清单 7-27 所 示 。 


代码 清单 7-27 获取 2019 年 2 月 所 有 分 文 机 构 的 预测 结 采 数据 


usages = | 











ts[lend training+l:end training+28] .sum() for ts in usage per_ sitel 


predictions= [|] 
for s in range (len(usage per site)): 
# 调用 端点 返回 28 天 的 预测 结果 
Predqlictions .append ( 
predictor.predictl( 
cat=[catsl[s]], 
ts=usage_ per_sitel[ls] [start date+30:enqd trainingl], 
dynamic_ feat=[ 
hols per_sitelsl[start date+30:engd training+28] .tolist(), 
max per_sitels] [start date+30:engd training+28] .tolist(), 
] 
OB] 二 名 而 
) 


for pu in Zip(predictions,usages): 
print (f'Predicted {p} kwh but usage was {u} kwh.') 
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一 旦 准备 好 了 列表 usages 和 列表 predictions， 就 可 以 通过 运行 代码 清单 7-21 中 创建 的 
mape 也 数 来 计算 MAPE， 如 代码 清单 7-28 所 示 。 


代码 清单 7-28 计算 MAPE 


print (f'MAPE: {round (mape (usages, predictions),1)}%$') 


代码 清单 7-29 与 第 6 章 中 的 blot 隐 数 相同 ,该 也 数 接受 列表 usages 并 以 与 代码 清单 7-27 
中 相同 的 方式 进行 预测 。 这 里 plot 函数 的 区 别 在 于 , 它 还 计算 了 80% 置 信 度 的 置信 区 间 。 接着 ， 
它 将 实际 使 用 量 绘制 成 一 条 线 ， 并 将 80% 和 置信 度 的 置信 区 间 涂 上 阴影 。 


代码 清单 7-29 ”展示 分 文 机 构 的 图 表 


def plotl 
DEEedLetor., 
site_ig, 
end training=end training, 
Plot weeks=12, 
confidence=80 











low gquantile = 0.5 - confidence * 0.005 
up_gquantile = confidence * 0.005 + 0.5 
target_ts = usage per_ sitel[lsite id] [start date+30:] 


dynamic feats = | 
hols_ per_sitelsite 1dq]l [startL_ date+30:] .tolist(), 
max_ per_sitel[site id] [start date+30:] .tolist(), 


] 


plot_ history = plot weeks * 7 





fig = plt.figure(figsize=(20, 3)) 
dx =" .BE .SUDBLot(CL;, 11) 





prediction = predictor.predictl( 
cat = [cats[lsite id]], 
ts=target_ts[:engd trainingl], 
dynamic feat=dynamic feats, 
quantiles=[low_ gquantile, 0.5, up_gquantilel]) 











小 二 


target_section = target tsl| 
end_ training-plot _ history:end training+prediction lengthl] 


target_section.plot (color="black", label='target') 





ax.fill between ( 





prediction[str(low GdquantllLe)]. IndexXx， 
prediction[lstr(low gquantile)] .values, 
prediction[str(up_ gquantile)] .values, 
ECOLOEFS. 
alpha=0 .3, 


label=f'{confidence}% confidence interval' 


) 


ax.set ylim(target_section.min() * 0.5, target_ section.max() * 1.5) 


代码 清单 7-30 运行 你 在 代码 清单 7-29 中 创建 的 plot 困 数 。 
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代码 清单 7-30 ”绘制 几 个 分 文 机 构 2 月 的 预测 结果 
indices = [2,26,33,39,42,47,3] 
for 1 in indices: 
plot_ num = indices.index(i) 
plotl( 
predictor, 
site id=i, 
plot weeks=6, 
confidence=80 


图 7-9 展示 了 几 个 分 支 机 构 的 预测 结 末 。 可 以 看 到 ， 每 个 时 间 序 列 的 每 日 预测 结 末 部 位 于 阴 
影 区 域内 。 


阴影 区 域 展示 了 2019 年 2 月 的 每 日 预测 能 耗 ， 
置信 度 为 80% 





Ss 8 8 8 





图 7-9 展示 2019 年 2 月 预测 能 耗 的 分 支 机 构图 


以 这 种 方式 展示 数据 的 一 个 优点 是 ， 可 以 很 容易 地 找 出 你 没有 准确 预测 的 分 支 机 构 。 例 如 ， 如 
果 你 查看 3 号 分 支 机 构 ( 图 7-10 中 图 列表 的 最 后 一 个 分 支 机 构 )， 就 会 发 现 2 月 有 -一段 时 间 几 乎 没 
有 能 耗 ， 而 你 预测 该 时 段 有 相当 高 的 能 耗 。 这 为 你 提供 了 通过 包含 额外 数据 集 来 改进 模型 的 机 会 。 


2 月 初 的 预测 能 耗 高 于 实际 能 耗 


17 2 也 07 14 21 28 
有 Feb Mar 


图 7-10 3 号 分 支 机 构 2 月初 的 预测 能 耗 不 准确 
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当 你 看 到 明显 不 准确 的 预测 时 ,可 以 调查 这 段 时 间 内 发 生 了 什么 , 并 确定 是 否 可 以 将 某 些 数 
据 源 整 合 到 预测 结果 中 , 例如， 如果 该 分 支 机 构 计 划 在 2 月 初 停业 进行 维护 ,并且 你 的 假期 数据 
中 尚未 包含 此 次 集 业 信息 ， 如 来 你 能 得 到 一 份 计划 集 业 维护 时 间 表 , 那么 就 可 以 很 容易 地 将 这 些 
数据 纳入 模型 中 去 ， 就 像 你 整合 假期 数据 一 样 。 


7.6 删除 新 点 并 集 止 你 的 笔记 本 实例 


与 往常 一 样 ， 当 你 不 再 使 用 笔记 本 时 , 请 记 住 停止 笔记 本 实例 并 删除 端点 。 我 们 不 希望 你 因 
未 使 用 的 SageMaker 服务 而 付费 。 


7.6.1 删除 端点 


要 删除 端点 ,请 取消 代码 清单 中 的 代码 注释 ， 然 后 按 Ctrl+Enter 组 合 键 运行 单 元 格 中 的 代码 ， 
如 代码 清单 7-31 所 示 。 


代码 清单 7-31 删除 端点 
# 删除 端点 (可 选 ) 
# 如 果 希 望 痛 点 在 单 击 Run All 后 继续 存在 ， 请 将 该 单元 格 注释 掉 
# sess.delete endpoint ('energy-usage-baseline') 
# sess.delete endpoint ('energy-usage-dynamic') 














7.6.2 ”停止 笔记 本 实例 


要 停止 笔记 本 ， 请 返回 打开 SageMaker 的 浏览 需 选 项 卡 。 单 击 Notebook instances 荣 单 项 以 
查看 所 有 笔记 本 实例 。 选 择 笔记 本 实例 名 称 旁 边 的 单 选 按钮 ， 如 图 7-11 所 示 ， 然 后 单 击 Actions 
菜单 上 的 Stop。 停 止 操 作 需 要 几 分 钟 的 时 间 。 











Amazon SageMaker Notebook instances 
Notebook instances 
Open Jupyter 
Q Search notebook instances 和 选择 Stop Ee 


~ Open JupyterLab 


Name Y Instance Creation time ?top 


1. 选择 单 
选 按钮 © mlforbusiness-ch02 ml.t2.large May 21, 2018 11:29 UTC Add/Edit tags 


图 7-11 停止 笔记 本 





7.7 检查 以 确保 并 点 已 被 删除 
如 果 你 没有 使 用 笔记 本 删除 端点 (或 者 只 想 确保 端点 已 被 删除 )， 那 么 可 以 从 SageMaker 控 
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制 侣 执行 此 操作 。 要 删除 端点 ， 请 单 击 端点 名 称 左 侧 的 单 选 按钮 ， 然 后 单 击 Actions 及 单项 ， 接 
者 在 出 现 的 茉 单 中 单 击 Delete。 

成 功 删 除 端点 后 , 你 将 不 再 为 此 文 付 AWS 费用 。 当 你 在 Endpoints 页 面 的 底部 看 到 “There are 
currently no resources” 时 ， 可 以 确认 所 有 端点 已 经 删除 ， 如 图 7-12 所 示 。 


Amazon SageMaker Endpoints 
Endpoints Create endpoint 
Q Search endpoints 1 全 
Name 刀 ARN Creation time  。 殖 Status “及 Last updated 


There are currently no resources. 全、 一 前 氮 已 成 功 删除 


图 7-12 确认 你 已 成 功 删 除 端 点 


现在 ,Kiara 可 以 用 MAPE 为 6.9% 的 水 平 来 预测 每 个 分 文 机 构 的 能 耗 ， 即 使 是 在 有 多 个 下 假 
日 或 天 气流 动 的 月 份 ， 也 能 进行 预测 。 


7.8 小结 


口 过 去 的 使 用 量 并 不 能 很 好 地 预测 未 来 的 使 用 量 。 

口 DeepAR 是 一 种 神经 网 络 算 法 , 它 特 别 擅长 将 多 个 不 同 的 时 间 序 列 数 据 集 整 合 到 其 预测 结 
末 中 ， 从 而 解释 你 的 时 间 序 列 预测 中 无 法 二 接 推 其 的 事件 。 

口 本 章 中 使 用 的 数据 集 可 以 分 为 两 种 类 型 的 数据 : 分 类 型 数据 和 动态 数据 。 分 类 型 数据 是 
天 于 那些 不 会 改变 的 分 文 机 构 的 信息 ; 动态 数据 是 随 春 时 间 变 化 的 数据 。 

口 对 于 预测 范围 内 的 每 一 天 ， 你 部 可 以 通过 定义 函数 mape 来 计算 时 间 序 列 数 据 的 MAPE。 

口 构建 模型 后 ， 你 可 以 进行 预测 并 将 结 采 显示 在 多 个 时 间 序 列 图 中 ， 这 样 就 能 轻松 可 视 化 
预测 结 














将 机 器 学 习 应 用 到 生产 环境 中 





本 书 的 最 后 一 部 分 将 展示 如 何在 不 设置 任何 服务 需 或 其 他 基础 设施 的 情况 下 ， 通 过 Web 为 
你 的 机 融 学 习 模 型 提供 Web 服务 。 

本 书 正文 部 分 以 两 个 案例 研究 作为 结尾 ,展示 公司 如 何在 运营 过 程 中 运行 机 器 学 习 项 目 ， 以 
及 他 们 如 何 改 变 自 己 的 员工 以 抓 住 机 需 学 习 和 自动 化 带 来 的 机 会 。 














通过 Web 提供 预测 服务 





口 设置 SageMaker 以 通过 Web 提供 预测 服务 
口 构建 和 部 署 无 服务 器 API 以 交付 SageMaker 预测 服务 
口 通过 Web 浏览 带 将 数据 发 送 给 API 并 接收 预测 结 


到 目前 为 止 , 你 构建 的 机 器 学 习 模型 只 能 在 SageMaker 中 使 用 。 如 果 要 为 其 他 人 提供 预测 服 
务 或 进行 决策 ， 那 么 必须 从 SageMaker 中 运行 的 Jupyter 笔记 本 提交 查询 并 将 结果 发 送 给 他 们 。 
当然 ， 这 不 是 AWS 设计 SageMaker 的 本 意 。AWS 希望 你 的 用 户 能 够 通过 Web 访问 预测 服务 并 
进行 决策 。 在 本 革 中 ， 你 将 帮助 你 的 用 户 做 到 这 一 点 。 











支持 服务 推 文 
在 第 4 章 中 ， 你 帮助 Naomi 识别 出 哪些 推 文 应 该 上 报 给 支持 团队 ， 以 及 哪些 推 文 可 以 由 
自动 机 器 人 处 理 , 但 你 没有 为 她 提供 一 种 方法 , 使 她 能 够 发 送 推 文 到 机 器 学 习 模 型 并 接收 是 否 
上 报 推 文 的 决策 结果 。 在 本 章 中 ， 你 将 弥补 这 一 点 。 


8.1 为 什么 通过 Web 提供 决策 和 预测 服务 这 么 难 


在 前 面 每 一 章 中 ， 你 都 构建 了 一 个 SageMaker 模型 并 为 其 设置 了 端点 。 在 Jupyter 笔记 本 的 
最 后 几 个 代码 单元 格 中 ， 你 将 测试 数据 发 送 给 端点 并 接收 到 绪 采 。 你 仅 在 SageMaker 环境 中 与 
SageMaker 闪 点 进行 了 交互 。 为 了 在 互联 网 上 部 署 机 融和 学 习 模 型 , 你 需要 将 该 端点 又 露 给 互联 网 。 

直到 现在 , 这 也 不 是 一 件 容 易 的 事情 , 你 首先 需要 设置 好 一 个 Web 服务 硕 ; 接 下 来 编写 Web 
服务 需要 使 用 的 API 代码; 最 后 部 普 好 Web 服务 大 ， 并 将 API 通 过 网 址 ( URL ) 提供 出 来 。 这 
涉及 许多 需要 改动 的 部 分 ， 并 不 是 很 好 做 。 现 在 ， 这 一 切 都 变 得 简单 多 了 了。 

在 本 章 中 , 我 们 以 上 一 章 学 到 的 与 Python 和 AWS 相关 的 许多 技能 为 基础 , 来 解决 创建 Web 
服务 顺和 部 署 API 的 问题 。 目 前 ， 你 可 以 提供 Web 应 用 程序 服务 ， 而 不 必 担 心 设置 Web 服务 大 
的 复杂 性 。 在 本 章 中 ， 你 将 使 用 AWS Lambda 作为 你 的 Web 服务 器 ， 如 图 8-1 所 示 。 
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从 六 览 絮 发 送 推 文 到 从 AWS Lambda 发 述 推 文 
AWS Lambda 到 SageMaker 交 点 


一 一 一 一 





Amazon SageMaker 


< 





上 报 的 决策 发 送 到 训 览 避 上 报 的 决策 从 端点 发 送 
到 AWS Lambda 


图 8-1 从 浏览 病 发 送 推 文 到 SageMaker 


AWS Lambda 是 一 个 按 需 局 动 的 服务 需 。 你 向 SageMaker 端点 发 送 的 每 一 条 推 文 都 会 创建 一 
个 服务 闫 ， 发 送 推 文 并 接收 啊 应 ， 完 成 后 就 会 关 财 。 这 段 描述 听 起 来 可 能 会 很 慢 ,， 但 事实 并 非 如 
此 。AWS Lambda 可 以 在 儿 毫 秒 内 局 动 和 关闭 。 提 供 API 服 务 的 优势 在 于 ， 只 有 当 Lambda 服务 
人 妖 基 于 API 提供 决 策 服 务 时 , 你 才 会 为 此 付费 。 对 于 许多 API 而 言 , 这 是 一 种 比 拥有 永久 专用 的 
Web 服务 硕 并 基于 你 的 API 提供 预测 服务 更 节省 成 本 的 模式 。 








无 服务 器 计算 
像 AWS Lambda 这 样 的 服务 通 第 称 为 无 服务 器。 无 服务 器 这 个 术语 是 一 个 有 问题 的 说 法 。 
当 你 在 互联 网 上 提供 API 服 务 时 , 根据 定义 ， 它 不 可 能 是 无 服务 器 的 。 无 服务 器 指 的 是 别人 在 
运行 你 的 服务 器 时 会 遇 到 麻烦 。 


8.2 本章 的 步骤 概述 


本 章 包 含 的 新 代码 很 少 ， 主 要 是 一 些 配置 。 为 了 帮助 你 完成 本 章 的 内 容 ， 你 会 看 到 一 个 步骤 
列表 以 及 你 在 步骤 中 的 位 置 。 这 些 步 又 分 为 以 下 4 个 部 分 。 

(1) 设置 SageMaker 山 点 。 

(2) 在 本 地 计算 机 配置 AWS。 

(3) 创建 一 个 Web 端点 。 

(4) 提供 决策 服务 。 

好 了 ， 我 们 开始 吧 ! 





8.3 SageMaker 病 点 


到 目前 为 止 ， 你 已 经 使 用 Jupyter 笔记 本 和 SageMaker 端点 与 机 需 学 习 模 型 进行 了 交互 。 当 
你 以 这 种 方式 与 模型 进行 交互 时 ， 它 隐藏 了 系统 各 部 分 之 间 的 一 些 区 别 。 
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SageMaker 病 点 还 可 以 问 API 提供 预测 服务 ,然后 API 可 以 通过 Web 将 预测 和 决策 服务 提供 
给 用 户 。 这 种 配置 之 所 以 能 够 发 挥 作用 ， 是 因为 它 是 一 个 安全 的 环境 。 你 除非 登录 Jupyter 笔记 
本 ， 否 则 无 法 访问 SageMaker 闹 点 ， 而 任何 登录 到 笔记 本 服务 冀 的 人 都 有 权 访 问 该 问 点 。 
然而 ,在 Web 上 ， 事 情 就 会 变 得 有 些 复杂 了 。 你 不 希望 任何 人 都 能 访问 你 的 SageMaker 并 
点 ， 所 以 你 需要 能 够 保证 端点 的 安全 性 ， 只 允许 有 权限 的 人 访问 。 
为 什么 除了 SageMaker 器 点 之 外 ,你 还 需要 一 个 API 端点 ? SageMaker 闹 点 不 具备 任何 可 安 
全 地 又 露 在 互联 网 世界 里 所 必需 的 组 件 。 季 运 的 是 ， 有 很 多 系统 可 以 解决 这 个 问题 。 在 本 章 中 ， 
你 将 使 用 AWS 的 基础 架构 来 创建 一 个 无 服务 硕 的 Web 应 用 程序 , 并 将 其 配置 为 基于 你 在 第 4 章 
设置 的 SageMaker 闹 点 提供 预测 和 决策 服务 。 为 此 ， 你 将 按照 以 下 步 缀 进行 操作 。 
(1) 通过 以 下 方式 设置 SageMaker 端点 : 
a. 启动 SageMaker; 
b. 上 传 笔 记 本 ; 
c. 运行 笔记 本 。 
(2) 在 本 地 计算 机 配置 AWS。 
(3) 创建 一 个 Web 端点 。 
(4) 提供 决策 服务 。 
首先 需要 局 动 SageMaker 并 为 笔记 本 创建 一 个 端点 。 你 要 使 用 的 笔记 本 与 第 4 草 中 使 用 的 笔 
记 本 〈customer_support.ipynb ) 是 一 样 的 ， 只 是 它 使 用 了 不 同 的 方法 来 标准 化 推广 文本。 如 果 你 
没有 学 完 那 一 章 或 者 没有 SageMaker 的 笔记 本 ， 不 用 担心 ， 我 们 会 逐步 教 你 如 何 设置 。 























8.4 设置 SageMaker 疹 点 


和 其 他 章 世 一样， 你 需要 局 动 SageMaker ( 详 见 附录 C )。 为 了 方便 ， 这 里 做 了 总 结 。 首 先 ， 
跳 转 到 AWS 的 SageMaker 服务 。 
然后 ， 启 动 你 的 笔记 本 实例 。 图 8-2 展示 了 AWS Notebook 实例 的 页 面 。 单 击 Start。 


Amazon SageMaker Amazon SageMaker Notebook instances 


Dashboard 。 


Search8Beta 
Q Search notebook instances 《全 
9 Ground Truth 
Labeling jobs 
Name Vv Instance Status Vv Actions 
Labeling datasets 


Labeling workforces mlforbusiness ml.t2.medium © Stopped Start 


vw Notebook 


单 击 Start 


Notebook instances 





Lifecycle configurations 


图 8-2 ”启动 SageMaker 实例 
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几 分 钟 后 ， 页 面 刷新 ， 出 现 了 Open Jupyter 的 链接 以 及 InService 的 状态 信息 。 图 8-3 展示 了 
笔记 本 实例 启动 后 的 AWS Notebook 实例 页 面 。 


Amazon SageMaker Amazon SageMaker Notebook instances 


Dashboard , , 


Searchseta 


Q Search notebook instances 人》 
vw Ground Truth 


Labeling jobs 


Name 时 Instance Status 时 Actions 
Labeling datasets 


Labeling workforces mlforbusiness ml.t2.medium © InService Open Jupyter 





vv Notebook 
单 击 Open Jupyter 
Notebook instances 





Lifecycle configurations 
图 8-3 打开 Jupyter 


下 一 节 将 展示 如 何 上 传 本章 的 笔记 本 和 数据 。 第 4 章 和 本 革 使 用 的 笔记 本 有 什么 区 别 呢 ? 

在 本 草 中 ， 即 使 你 像 第 4 草 中 那样 决定 上 报 哪 些 推 文 ， 也 会 创建 一 个 新 的 笔记 本 ， 而 不 是 重 
复 使 用 第 4 章 的 笔记 本 。 这 样 做 的 原因 是 ， 我 们 希望 能 在 浏览 各 的 地 址 栏 将 推 文 文本 作为 URL 
进行 传递 (这样 就 不 必 构 建 Web 表单 来 输入 推 文 文本 )。 这 意味 春 推 文 的 文本 不 能 包含 浏览 需 地 
址 栏 不 允许 输入 的 字符 。 由 于 在 第 4 章 中 没有 考虑 到 这 一 点 ， 因 此 在 本 章 我 们 需要 训练 一 个 新 的 
模型 。 

本 章 创建 的 笔记 本 与 第 4 章 的 笔记 本 完全 相同 , 只 是 本 章 使 用 名 为 slugify 的 库 而 不 是 NLTK 
来 预 处 理 推 文 。slugify 通常 用 于 将 文本 转换 为 网 站 URL 链接 。 除 了 提供 轻 量 级 处 理 机 制 来 标准 
化 文本 之 外 ， 它 还 允许 通过 URL 访问 推 文 。 


8.4.1 上 传 笔记 本 


首先 将 Jupyter 笔记 本 下 载 到 你 的 计算 机 。 
现在 ， 在 图 8-4 所 示 的 笔记 本 实例 中 ， 通 过 单 击 Files 页 面 上 的 New 并 选择 Folder 沫 单项 ， 
创建 一 个 文件 夹 来 存储 笔记 本 ， 如 图 8-5 所 示 。 这 个 新 文件 夹 将 包含 本 章 的 所 有 代码 。 
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Jupyter 


Files Running Clusters 单 击 New 


Select items to perform actions on them. Upload | Newv | OC 


Bs / NameYy Last Modified File size 
加 ch02 5 months ago 
口 ch03 5 months ago 
口 ch04 7 days ago 
国 口 ch05 3 months ago 


口 ch06 a month ago 





国 六 ch07 2 months ago 


图 8-4 ”创建 一 个 新 的 笔记 本 文件 来 : 步骤 1 


Notebook 


Upload C 


Sparkmagic (PySpark) 上 
Sparkmagic (PySpark3) 


conda tensorflow_ p36 


Other 


sw Text File 


Folder 
Terminal 


单 击 Folder 





图 8-$ ”创建 一 个 新 的 笔记 本 文件 夹 : 步骤 2 


图 8-6 展示 了 操作 后 的 新 文件 来。 进入 文件 夹 后 ， 可 以 在 页 面 右 上 方 看 到 一 个 Upload 按钮 。 
单 击 此 按钮 可 以 打开 文件 选择 窗口 。 导 航 到 你 下 载 Jupyter 笔记 本 的 位 置 ， 然 后 将 其 上 传 到 笔记 
本 实例 中 。 
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二 Jupyter 


单 击 Upload 
Files Running Clusters 


Select items to perform actions on them. Upload New | 他 


0 | | 入 / ch08 Namey Last Modified File size 


[5 Seconds ago 





图 8-6 ”上传 笔记 本 到 新 的 笔记 本 文件 夹 
图 8-7 展示 了 你 上 传 到 SageMaker 的 笔记 本 。 


二 Jupyter 


Files Running Clusters 
Select items to perform actions on them. Upload ， New ~ 


0 | | 贸 / ch08 Name yy Last Modified File size 


Pe seconds ago 





局 customer support_ slugify.ipynb Running 7 days ago 


图 8-7 确定 笔记 本 customer support slugify.ipynb 已 上 传 到 你 的 SageMaker 文件 夹 


8.4.2 上传 数据 


即使 你 无 法 重用 第 4 章 中 的 笔记 本 , 也 可 以 重用 数据 。 如 果 你 设置 了 笔记 本 和 第 4 章 的 数据 ， 
那么 可 以 使 用 该 数据 集 ， 直 接 跳 到 8.4.3 节 。 如 果 你 没有 那么 做 ， 请 按照 本 节 中 的 步骤 进行 操作 。 

如 果 你 没有 设置 笔记 本 和 第 4 章 的 数据 ， 请 下 载 数据 集 。 

将 此 文件 保存 到 计算 机 的 某 个 位 置 。 除 了 将 文件 上 传 到 S3 之 外 , 你 不 会 对 其 进行 任何 操作 ， 
此 你 可 以 使 用 下 载 目录 或 其 他 临时 文件 夹 。 

现在 ， 跳 转 到 AWS S3， 即 AWS 文件 存储 服务 。 

跳 转 到 该 页 面 后 , 创建 或 者 导航 到 S3 存储 桶 , 以 保存 本 书 的 数据 ( 如 果 沿 未 创建 S3 存储 桶 ， 
请 参阅 附录 B )。 

在 存储 桶 中 ， 可 以 看 到 已 创建 的 所 有 文件 夹 。 如 果 尚 未 创建 文件 夹 ， 请 单 击 Create Folder， 
创建 一 个 文件 夹 来 保存 第 4 章 的 数据 。( 我 们 正在 为 第 4 章 设置 数据 ， 因 为 本 章 使 用 的 数据 与 该 
章 相 同 。 即 使 你 没有 仔细 阅读 第 4 章 的 内 容 ， 也 可 以 像 该 章 一 样 存储 数据 。) 图 8-8 展示 了 如 果 
你 按照 本 书 各 和 草 进 行 操 作 ， 可 能 拥有 的 文件 夹 结构 。 
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Amazon S3 > mlforbusiness 


Overview 





] Q Typea prefix and press Enter to search. Press ESC to clear. 
企 Upload 中 Create folder 2 


Viewing 1 to 6 


Storage class v 





Viewing 1to 6 
图 8-8 S3 文件 夹 结构 的 示例 


在 文件 夹 内 ， 单 击 页 面 左 上 角 的 Upload， 找 到 刚刚 保存 的 CSV 数据 文件 ， 然 后 上 传 。 完 成 
此 操作 后 ,你 将 在 文件 夹 中 看 到 inbound.csv 文件 ， 如 图 8-9 所 示 。 保持 此 页 面 为 打开 状态 ， 因 为 
在 运行 笔记 本 时 你 需要 获取 文件 的 位 置 。 








Amazon S3 > mlforbusiness > 


Overview 


Q Typea prefix and press Entert 


中 Create folder 2 


Viewing 1to 6 


[|] Namev Last modified v Storage classv 


Sep 26, 2018 4:05:02 PM 


DD OB inbound.csv gp 


Standard 


Viewing 1 to 6 


图 8-9 ”上传 CSV 数据 后 S3 存储 桶 的 示例 
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现在 已 在 SageMaker 上 设置 了 Jupyter 笔记 本 ， 并 将 数据 加 载 到 了 S3 上 。 你 已 准备 好 开始 构 
建 和 部 署 模型 ， 以 通过 Web 提供 预测 服务 。 


8.4.3 ”运行 笔记 本 并 创建 病 点 


现在 你 已 有 了 一 个 正在 运行 的 Jupyter 笔记 本 实例 并 将 数据 上 传 到 S3 了 , 下 面 运行 笔记 本 并 
创建 端点 。 为 此 ， 请 从 菜单 中 选择 Cell， 然 后 单 击 Run Al， 如 图 8-10 所 示 。 





~, Jupyter customer_support Last Checkpoint 01/11/2018 (autosaved) 


File Edit View Insert Cell Kernel Widgets Help 


+ 关 | 拘 | 区 | 个 ¥| Runcells 单 击 Run All 
Run Cells and Select Below | 
Run Cells and Insert Below 
Run All 
Deciding Rural nihenoeboorlAlate a Customer support iss 
Run All Below 
Part 1: Lo: data 


Cell Type 





In [1]: ‘data bucket = 
subfolder = '¢ Current Outputs 
dataset = 'int All Output 





图 8-10 ”运行 笔记 本 的 所 有 代码 单元 格 


大 约 $ 分 钟 后 ,笔记本 中 的 所 有 单元 格 都 将 运行 ,你 将 创建 一 个 端点 。 通 过 滚动 到 笔记 本 底 
部 并 检查 倒数 第 2 个 单元 格 (在 Testthe Model 标题 下 ) 的 值 ， 你 可 以 看 到 所 有 单元 格 都 运行 了 
如 图 8-11 所 示 。 








Test the Model 





: tweet = "Help me I'm Vvery disappointed!" 


tokenized tweet = [" '.join(nltk.word tokenize(tweet))] 
payload = {"instances" : tokenized tweet} 

response = text classifier.predict(json.dumps(payload)) 
escalate = pd.read_json(response) 

escalate 


Out[19]: 


=>=>k 琶 如 条 单 元 格 输出 为 值 ， 
0 [_label 1] [0.9999783039093011] 4 则 笔记 本 已 完成 运行 











图 8-11 确定 笔记 本 的 所 有 单元 格 已 经 运行 
运行 笔记 本 后 ， 可 以 通过 单 击 Endpoints 链接 来 查看 端点 ， 如 图 8-12 所 示 。 
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v Inference 
Compilation jobs 
Model packages 
Models 


Endpoint configurations 
Endpoints 4— 人 ”人 一 站 单 击 Endpoints 


Batch transform jobs 





图 8-12 ”导航 到 Endpoints 以 查看 当前 的 端点 


在 这 里 ， 你 将 看 到 已 创建 的 端点 Amazon 资源 名 称 ( Amazon Resource Name，ARN )， 设 置 
API 端 点 时 需要 该 名 称 。 图 8-13 展示 了 端点 的 示例 。 


Amazon SageMaker Endpoints 
Endpoints Create endpoint 
Q Search endpoints 1 兮 
TI RN 
端 扩 A Creation Last 
Name 鼠 ARN Status MA 
time 4 updated 
arn:aws:sagemaker:us-east yp 
customer- Apr 07, 2019 2019 
1:060148268882:endpoint/customer- InService 
support ; Deineu 02:48 UTC Oinsemi 02:55 
support-slugify pve 





图 8-13 ”端点 ARN 的 示例 


下 面 可 以 设置 无 服务 器 API 病 点 。API 妆 点 是 你 将 推 文 发 送 到 的 URL 或 Web 地 址 。 你 将 基 
于 名 为 AWS Lambda 的 AWS 无 服务 需 技 术 设 置 端点 。 为 了 让 AWS Lambda 知道 要 做 什么 , 你 将 
安装 名 为 Chalice 的 Python 库 。 

Chalice 是 由 AWS 建立 的 一 个 库 ， 可 以 让 你 轻松 使 用 Python 为 API 端点 提供 服务 。 


8.5 设置 无 服务 器 API 并 点 


下 面 来 看 看 你 进行 到 哪 一 步 了 。 你 刚刚 设置 了 一 个 SageMaker 端点 ,可 以 帮助 你 决定 是 否 将 
推 文 上 报 支 持 团队 。 接 下 来 ， 你 将 按照 以 下 步 嗓 设置 无 服务 磊 API 端点 Chalice。 
(1) 设置 SageMaker 端点 。 
(2) 通过 以 下 方式 在 本 地 计算 机 配置 AWS: 
a. 创建 证 书 ; 
b. 在 本 地 计算 机 安装 证 书 ; 
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c. 配置 证 书 。 

(3) 创建 一 个 Web 端点 。 

(4) 提供 决策 服务 。 

有 点 讽刺 的 是 , 设置 无 服务 磊 API 端点 要 做 的 第 一 件 事 就 是 在 计算 机 上 设置 软件 。 你 需要 的 
两 个 应 用 程序 是 Python ( 3.6 或 更 高 版 本 ) 和 一 个 文本 编辑 器 。 

附录 王 中 提供 了 安装 Python 的 说 明 。 尺 管 安装 Python 曾经 是 一 件 麻 烦 事 , 但 在 Windows 操 
作 系 统 中 , 通过 将 Python 添加 到 Microsoft Windows Store， 安 装 Python 变 得 容易 多 了 。 一 段 时 间 
以 来 ，Homebrew 软件 包 管 理 需 使 得 在 Apple 计算 机 上 安装 Python 变 得 更 加 容易 。 

如 前 所 述 ， 你 还 需要 一 个 文本 编辑 融 。Microsoft 的 Visual Studio Code (VS Code ) 是 最 容易 
设置 的 编辑 带 之 一 。 它 可 以 在 Windows、macOS 和 Linux 上 运行 。 现 在 你 已 经 准备 好 在 计算 机 上 
运行 Python， 并且 文本 编辑 硕 已 经 准备 就 绪 ， 可 以 开始 设置 无 服务 需 端 点 。 
































8.5.1 在 AWS 账 户 上 设置 AWS 证 书 


要 访问 SageMaker 端点 , 无 服务 需 API 需要 具有 访问 权限 。 因 为 你 是 在 本 地 计算 机 而 不 是 
在 SageMaker 笔记 本 (正如 你 在 本 书 前 儿童 所 做 的 那样 ) 中 编写 代码 ， 所 以 本 地 计算 机 还 需要 
有 访问 SageMaker 端点 和 AWS 账户 的 权限 。 和 幸运 的 是 ，AWS 提供 了 一 种 简单 的 方法 来 实现 这 
两 种 功能 。 

首先 ， 你 需要 在 AWS 账户 中 创建 证 书 。 要 设置 证 书 ， 请 在 任意 AWS 页 面 中 单 击 浏览 姨 右 
于 方 的 AWS 用 户 名 ， 如 图 8-14 所 示 。 














My Account 





My Organization 


My Billing Dashboard 
单 击 这 里 、 一 一 a My Security Credentials 


Switch Role 


Last modified wv Sign Out 





图 8-14 创建 AWS 证 书 


在 打开 的 页 面 中 ， 有 一 个 Create access key 按钮 ， 可 以 让 你 创建 访问 密 钥 ， 这 是 一 种 用 于 访 
问 AWS 账户 的 证 书 类 型 。 单 击 Create access key 按钮 。 
图 8-15 展示 了 用 于 创建 访问 密 钥 的 AWS 用 户 界 面 。 单 击 Create access key 按钮 后 ， 你 就 能 
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以 CSV 文件 格式 下 载 安全 证 书 了 。 


Access keys for CLI,SDK, & API access 


Use access keys to make programmatic calls to AWS from the AWS Command Line Interface (AWS CLI), Tools for Windows Pr 
or direct AWS APl calls. ifyou lose orforget your secret key, you cannot retrieve it. Instead, create a new access key an! 
inactive. Learn more 


Create access key 4 一 一 一 一 单 击 这 里 


Access key ID Status Created Last used 





图 8-15 ”创建 一 个 AWS 访问 密 铀 


注意 这 是 你 唯一 以 CSV 文件 格式 下 载 密 钥 的 机 会 。 


下 载 CSV 文件 并 将 其 保存 在 你 的 计算 机 上 只 有 你 可 以 访问 的 某 个 位 置 ， 如 图 8-16 所 示 。 任 
何 获得 该 密 钥 的 人 都 可 以 使 用 你 的 AWS 账户 。 


Create access key 


@ Your new access key is now available. 


This is the only time that the secret access key can be viewed or downloaded. 
You cannot recover it later However you can create new access keys at any time. 


此 Download .csvfile | 和 4 一 单 击 下 载 


Access keyID AKIAQ4AI5EYEIHQWCXF ”后 


Secret access key Show secret access key 





图 8-16 下 载 AWS 访问 密 钥 


将 访问 密 钥 下 载 到 计算 机 上 后 ， 你 可 以 设置 本 地 计算 机 以 访问 AWS。 接 下 来 我 们 将 对 此 展 
开 介 绍 。 


8.5.2 ”在 本 地 计算 机 上 设置 AWS 证 书 


要 设置 本 地 计算 机 以 访问 AWS， 你 需要 在 本 地 计算 机 上 安装 AWS 的 两 个 Python 库 。 本 证 
将 介绍 如 何 从 VS Code 安装 这 两 个 库 ， 不 过 你 也 可 以 使 用 任何 终端 应 用 程序 ， 例 如 Unix 或 者 
macOS 上 的 Bash, 或 Windows 上 的 PowerShell。 

首先 , 在 计算 机 上 创建 一 个 用 于 保存 代码 的 文件 夹 。 然 后 打开 VS Code, 并 单 击 Open Folder 
按钮 ， 如 图 8-17 所 示 。 
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<) File Edit Selection View Go Debug Terminal Help 


-| Welcome *X 


Visual Studlo Code 


Editing evolved 


Start 单 击 Open folder 
New file / 
Open folder... 


Add workspace folder... 





图 8-17 在 VS Code 中 打开 文件 夹 


在 计算 机 上 创建 一 个 新 文件 夹 来 保存 本 革 的 文件 。 完 成 此 操作 后 ， 就 可 以 安装 所 需要 的 
Python 库 了 。 

你 将 在 本 地 计算 机 上 编写 的 代码 需要 一 些 Python 库 ， 就 像 SageMaker 运行 需要 Python 库 一 
样 。 本 地 计算 机 和 SageMaker 之 间 的 区 别 在 于 ，SageMaker 已 拥有 你 需要 安装 的 库 ， 而 本 地 计算 
机 可 能 需要 你 目 己 安装 这 些 库 。 

为 了 在 计算 机 上 安装 Python 库 ， 你 需要 打开 一 个 终端 shell。 这 是 一 种 仅 使 用 键盘 就 可 以 在 
计算 机 中 输入 命令 的 方法 。 通 过 按 Ctrl+Shift 组 合 键 ， 可 以 在 VS Code 中 打开 终端 窗口 。 或 者 ， 
可 以 从 菜单 栏 中 选择 Terminal， 然 后 选择 New Terminal， 从 VS Code 打开 终端 窗口 。 

VS Code 底部 出 现 了 一 个 终端 窗口 ， 你 可 以 在 其 中 键 和 命令。 下面 可 以 安装 访问 SageMaker 
所 需 的 Python 库 了 。 

你 将 安装 的 第 一 个 库 名 为 boto3， 该 库 可 帮助 你 与 AWS 服务 进行 交互 。SageMaker 本 身 使 用 
boto3 与 S3 等 服务 进行 交互 。 要 安 闻 boto3 ， 请 在 终端 窗口 中 键 和 人 : 


pip install boto3 


接 下 来 ,你 需要 安装 命令 行 界 面 (command-line interface，CLI ) 库 ， 该 库 人 允许 你 在 计算 机 上 
停止 和 启动 AWS 服务 。 它 还 允许 你 设置 在 AWS 中 创建 的 证 书 。 要 安装 AWS CLI 库 ， 请 键入 : 


pip install awscli 


安 寂 了 boto3 和 CLI 库 之 后 ， 就 可 以 配置 证 书 了 。 

















8.5.3 配置 证 书 


要 配置 AWS 证 书 ， 请 在 终端 窗口 的 提示 符 处 运行 以 下 命令 : 


aws configure 
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你 会 被 要 求 提 供 AWS Access Key ID 和 之 前 下 载 的 AWS Secret Access Key, 以 及 AWS 区 域 。 
图 8-18 展示 了 如 何 定 位 SageMaker 区 域 。 


SageMaker[ 区 域 


C 会 https://console.aws.amazon.com/sagemaker/home?region=Uus-east-1#/dashboard 


AWS Services ~ Resource Groups ~ 廊 


全 


Amazon SageMaker xX Amazon SageMaker Dashboard 





图 8-18 ”定位 SageMaker 区 域 
图 8-18 显示 了 你 登录 SageMaker 时 Web 浏览 硕 的 地 址 栏 。 该 地 址 展示 了 你 的 SageMaker 服 
务 位 于 哪个 区 域 。 在 配置 AWS 证 书 时 ， 请 使 用 该 区 域 。 请 注意 ， 你 可 以 将 默认 输出 格式 留 空 : 
| 输入 你 之 前 下 载 的 Access Key ID 


AWS AcceSS Key ID: 


AWS Secret AcceSS Key : 
DEFaUlt TEdLon. nailte [Us-€aest- 1]: 输入 你 之 前 下 载 的 Secret Access Key 


Default output format [Nonel]: 
输入 你 使 用 的 SageMaker 的 AWS 区 域 





你 已 完成 了 本 地 计算 机 的 AWS 配 置 。 回 顾 一 下 ， 你 设置 了 SageMaker 端点 ， 然 后 在 本 地 计 
算 机 上 配置 了 AWS。 现在 ,你 将 创建 Web 端点 ， 根 据 哪 些 推 文 需要 上 报 给 Naomi 的 文 持 团队 来 
提供 决策 服务 。 下 面 更 新 一 下 整个 过 程 的 进度 。 
(1) 设置 SageMaker 冰点 。 
(2) 在 本 地 计算 机 上 配置 AWS。 
(3) 通过 以 下 方式 创建 一 个 Web 端点 : 
a. 安装 Chalice; 
b. 编写 端点 代 但 ; 
c. 配置 权限 ; 
d. 更 新 requirements.txt; 
e. 部 午 Chalice。 
(4) 提供 决策 服务 。 





8.6 创建 Web 端点 


这 是 我 们 首次 使 用 AWS 为 API 端点 提供 服务 ， 也 是 本 章 的 重点 。 你 将 使 用 名 为 Lambda 响 
数 的 AWS 技术 创建 无 服务 需 果 数 ， 并 使 用 名 为 Amazon API Gateway 的 AWS 技术 配置 API。 然 
后 , 将 部 署 SageMaker 端点 ,以便 任何 地 方 的 任何 人 都 可 以 使 用 它 。 你 只 需 几 行 代码 就 可 以 做 到 ， 
就 这 么 神奇 ! 
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8.6.1 安装 Chalice 


Chalice 是 Amazon 的 开源 软件 ， 可 以 自动 创建 和 部 署 Lambda 因数 并 配置 API 网 关 端 点 。 在 
配置 过 程 中 ,你 将 在 计算 机 上 创建 一 个 文件 夹 来 存储 Chalice 代码 。Chalice 将 负责 打包 代码 并 将 
其 安装 在 你 的 AWS 账户 下 。 它 可 以 这 么 做 是 因为 在 上 一 节 中 你 使 用 AWS CLI 配置 了 AWS 证 书 。 

最 简单 的 安装 方式 是 跳 转 到 计算 机 的 空 文件 夹 。 右 击 该 文件 夹 以 打开 一 个 菜单 ， 然 后 单 击 
Open with Code， 如 图 8-19 所 示 。 或 者 ， 你 也 可 以 从 VS Code 中 打开 该 文件 来， 方法 与 图 8-17 
中 所 示 的 方法 相同 。 两 种 方法 都 可 以 ， 选 择 自己 喜欢 的 方式 即 可 。 





























tweet escalator 19/04/2019 11:33 PM File folder 


| customer_support_new.ipynb 22/04/2019 6:22 PM IPYNB File 





View 

Sort by 
Group by 
Refresh 





Customise this folder... 


Paste 
Paste shortcut 
No . 
i Git GUI Here 单 击 Open with Code 
> Git Bash Here 
| Open with Code 











图 8-19 ”在 文件 夹 中 打开 VS Code 编辑 需 


要 安装 Chalice， 请 在 打开 VS Code 后 ,， 像 配置 AWS CLI 一 样 进入 终端 窗口 ， 然 后 键入 以 下 


人 AN 
六 : 


可 


DID install chalice 


根据 计算 机 的 权限 ， 如 有 果 这 样 会 报错 ， 则 你 可 能 需要 键入 以 下 命令 : 


pip install --user chalice 





就 像 前 面 使 用 的 AWS CLI 一 样 ， 此 命令 在 系统 上 创建 一 个 CLI 应 用 程序 。 现 在 已 准备 好 使 
用 Chalice 了 。 

使 用 Chalice 很 简单 。 它 有 两 个 主要 命令 : 

new-ProJject 

DD deploy 

要 创建 一 个 名 为 tweet_escalator 的 新 项 目 ， 请 在 提示 符 下 运行 以 下 命令 : 


chalice new-project tweetL_escalLator 














如 果 你 查看 VS Code 中 的 文件 夹 , 会 看 到 一 个 名 为 tweet_escalator 的 文件 夹 ,其 中 包含 Chalice 
目 动 创建 的 一 些 文件 。 我 们 马上 就 会 讨论 这 些 文件 ， 但 先 要 部 署 一 个 Hello World 的 应 用 程序 。 
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在 终端 窗口 中 ， 你 会 看 到 在 运行 chalice 有 eaesi ee > > eaweeeeag 二 下 你 仍 
位 于 打开 VS Code 的 文件 夹 中 。 要 导航 到 tweet_escalator 文件 夹 ， 请 键入 : 


CQ tweet _ escalator 


你 会 看 到 你 现在 位 于 tweet_escalator 文件 夹 中 : 


c:\\mlforbusiness\ch08\tweet escalator 








可 以 键入 chalice deploy 创建 一 个 Hello World 应 用 程序 : 


c:\\mlforbusiness\ch08\tweet_escalator chalice deploy 





然后 ，Chalice 将 在 AWS 上 自动 创建 Lambda 也 数 ， 设 置 运行 该 应 用 程序 的 权限 〈 称 为 IAM 
角色 )， 并 使 用 AWS Gateway 配置 Rest 奖 点 。 下 面 是 Chalice 的 流程 : 

口 创建 部 署 包 ; 

口 创建 一 个 IAM 角色 ( tweet escalator-dev): 

口 创建 Lambda 吗 数 (tweet _escalator-dev ); 

口 创建 Rest API。 

Chalice 部 署 的 资源 如 下 所 示 : 

口 Lambda ARN (arn:aws:lambda us-east-1:3839393993:function:tweet escalator-dv ) 


DD Rest API URL 
可 以 通过 单 击 终端 中 显示 的 Rest API URL 来 运行 Hello World 应 用 程序 么 做 会 打开 Web 


浏览 器 ， 并 以 JSON 格式 展示 {"hello":"world"}， 如 图 8-20 所 示 。 


C 自 https://g8Ilqvzw5mj.execute-api.us-east-1.amazonaws.com/api/ 
{"hello":"world"} 


图 8-20 Hello World 


豆 你 ! API 现 在 已 局 动 且 开始 运行 ， 你 可 以 在 Web 浏览 大 中 看 到 输出 绪 





8.6.2 创建 Hello World API 


现在 可 以 使 用 Hello World 应 用 程序 了 ， 下 面 配 置 Chalice 以 从 端点 返回 决策 结果 。 图 8-21 
展示 了 在 键入 chalice new-project tweet_escalator 时 ，Chalice 自动 创建 的 文件 ， 其 中 
包括 以 下 3 个 重要 组 成 部 分 。 
口 包含 配置 文件 的 .chalice 文件 来。 该 文件 夹 中 唯一 需要 修改 的 文件 是 policy-dev.json 文件 ， 
该 文件 设置 了 允许 Lambda 图 数 调用 SageMaker 喘 点 的 权限 。 
口 一 个 app.py 文件 ， 其 中 包含 了 访问 端点 ( 如 在 Web 浏览 融 中 香 看 ) 时 运行 的 代码 。 
口 列 出 了 应 用 程序 运行 所 需 的 所 有 Python 库 的 requirements.txt 文件 。 
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< v 个 时 > ThisPC > Desktop > 2019 projects > hudgeon > code ch08 > tweet escalator 


Name 


.chalice 4 一 一 |， 设置 权限 
下 “pycache__ 
下 chaliceli 


b 2. 配置 应 用 程序 
局 app.py re 


旧 requirements.txt 4 一 一 一 3. 列 出 需要 安装 的 软件 


图 8-21 计算 机 上 的 Chalice 文件 夹 的 截图 











代码 清单 8-1 展示 了 Chalice 目 动 创 建 的 app.py 文件 中 的 代码 。 该 应 用 程序 只 需要 一 个 名 称 、 
一 个 路 由 和 一 个 孙 数 就 可 以 工作 。 


代码 清单 8-1 Chalice 的 默认 app.py 代码 


导入 Chalice， 该 库 创建 
from chalice import Chalice <— Lambda 函数 和 API 网 关 





app = Challicel(app_name='tweet_escalator ' ) 所 设置 应 用 程序 的 名 称 
Qapp.route('/') 了] 设置 默 i 
专人 
def index(): 设置 默认 路 由 
return {'hello': 'world'} 
定义 单 击 默认 路 由 时 
设置 函数 返回 并 显示 在 运行 的 函数 


Web 浏览 器 中 的 值 











在 代码 清单 8-1 中 ,应 用 程序 的 名 称 (第 2 行 ) 用 于 标识 AWS 上 的 Lambda 咕 数 和 API 网 关 


的 名 称 。 路 由 (第 3 行 ) 标识 了 运行 该 函数 的 URL 位置 。 阴 数 (第 4 行 ) 是 访问 URL 位 置 时 运 
行 的 代码 。 


访问 URL 

访问 URL 的 方法 有 很 多 。 在 本 章 中 ， 我 们 将 通过 在 浏览 器 的 地 址 栏 中 输入 URL 来 访问 
URL。 更 常见 的 是 ， 当 调用 SageMaker 端点 时 ， 你 会 从 另 一 个 应 用 程序 中 访问 URL 位 置 。 例 
如 ， 你 会 在 指派 系统 中 实现 一 个 应 用 程序 ， 该 应 用 程序 会 在 Naomi 的 支持 团队 回复 推 文 时 使 
用 。 然 后 ， 该 应 用 程序 会 将 推 文 发 送 到 URL 位 置 ， 并 读 取 返回 的 响应 ， 最 后 ， 如 果 返 回 的 响 
应 建议 将 该 推 文 上 报 ， 那 么 它 将 被 路 由 到 指派 系统 中 的 特定 支持 渠道 。 

构建 这 个 应 用 程序 超出 了 本 书 的 范围 。 在 本 章 中 , 你 将 只 设置 调用 SageMaker 端点 的 URL 
位 置 ， 并 在 Web 浏览 器 中 展示 上 报 建 议 。 


8.6.3 添加 为 SageMaker 端 点 提供 服务 的 代码 


可 以 保留 刚刚 创建 的 Hello World 代码 , 并 将 其 作为 SageMaker 端点 提供 服务 的 代码 的 基础 。 
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现在 ， 在 Hello World 代码 的 底部 ， 添 加 两 个 空白 行 ， 然 后 输入 代码 清单 8-2 的 代码 。 
代码 清单 8-2 默认 的 app.py 代码 


Ga Ente Eeet EwetEl < 一 一 一 定义 路 由 





def return tweet (tweet): ep 

tokenized tweet = | | 设置 函数 

sluglify (EwWeet; SeBarators" 1) < 一 一 一 令 牌 化 推 文 
payload = json.dumps\ 

{"ijnstances" : tokenized tweet}) < 一 一 一 设置 payload 
endpoint_ name = 'customer-support-slugify' 

| 标识 SageMaker 端点 

runtime = boto3.Session().client( 


service name='sagemaker-runtime', 


region name='us-east-1') 
准备 端点 


response = runtime.invoke endpointl\( 
EndpointName=endpoint_name, 


ContentType='application/jJson', 调用 端点 并 获取 响应 结果 
Body=pay1oad) 


response list = json.loadsl( 








reaponse["Body'] .read!() .decodel)) -一 将 响应 结果 转换 为 列表 
response = response _ 11st [0 本 
ee 获取 列表 中 的 
有 二 二 AR 
If '1' in responsel[l'label'][0]: 第 一 个 元 素 
escalate = 'Yes, 将 是 否 上 报 的 决策 设置 
else: 为 Yes 或 者 No 
escalate = 'No' 
full response = ({ 设置 完整 的 响应 结果 格式 
Tweet': tweet, 
'Tokenised tweet': tokenized tweet, 
'Escalate': escalate, 
'Confidence': response['prob'] [0] 
} 
return full response 二 一 一 一 返回 响应 结果 


就 像 你 在 代码 清单 8-1 的 第 3 行 设置 的 &@app .route 一 样 ,通过 定义 将 要 使 用 的 路 由 作为 代 
人 码 的 开始 。 无 须 像 之 前 那样 将 路 由 定义 为 /， 而 是 在 代码 清单 8-2 的 第 1 行 中 将 路 由 设置 为 
/tweet/{tweet}/。 这 告诉 Lambda 函数 监听 访问 URL 路 径 /tweet/ 的 所 有 内 容 ， 然 后 将 其 获取 
到 的 所 有 内 容 提 交 给 SageMaker 端点 ， 例 如 ， 如 果 Chalice 在 以 下 位 置 为 你 创建 一 个 端点 : 


https://Ifsldanztd.execute-apl.us-east-1.amazonaws .com/api/ 


当 你 跳 转 到 该 端点 时 ， 它 将 返回 {"hello" : "world"}。 同 样 ， 当 你 访问 以 下 端点 时 ， 代 
码 清 单 8-2 的 第 1 行 代码 会 回 SageMaker 冰点 发 送 I_ am angry: 


https://Ifsldanztd.execute-apl.us-east-1.amazonaws .com/apl/Lweet/I-am-ancgtYy 


代码 {tweet} 告 诉 Chalice 把 它 在 URL 末尾 获取 到 的 所 有 内 容 都 放 到 一 个 名 为 tweet 的 变 
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量 中 。 在 第 2 行 的 函数 中 ， 你 正在 使 用 第 1 行 中 的 变量 tweet 作为 该 晒 数 的 输入 。 

第 3 行使 用 与 Jupyter 笔记 本 相同 的 函数 来 处 理 该 推 文 。 这 样 可 以 确保 对 发 送 到 SageMaker 
闹 点 的 推 文 进行 标准 化 的 方法 与 训练 模型 的 方法 相同 。 第 4 行 展示 了 Jupyter 笔记 本 中 的 代码 ， 
它 创建 要 发 送 到 SageMaker 端点 的 payload。 第 $ 行 是 调用 的 SageMaker 端点 的 名 称 。 第 6 行 确 
保山 点 已 准备 好 啊 应 发 送 给 它 的 推 文 。 第 7 行 则 将 该 推 文 发 送 到 SageMaker 端点 。 

第 8 行 收 到 啊 应 结 末 。S$ageMaker 端点 的 设计 目标 是 接收 推 文 列 表 并 返回 啊 应 结 采 列表 。 对 
于 本 章 的 应 用 程序 ， 你 只 发 送 了 一 条 推 文 ， 因 此 第 9 行 仅 返回 第 一 个 结果 。 第 10 行将 决策 结 
是 否 上 报 从 0 或 1 转换 为 No 或 Yes。 第 11 行 定义 了 啊 应 结果 格式 。 第 12 行 将 啊 应 绪 采 返回 到 
Web 浏览 硕 。 








8.6.4 配置 权限 


此 时 ，Chalice API 仍 无 法 访问 AWS Lambda 函数 。 你 需要 授予 AWS Lambda 函数 访问 端点 
的 权限 。Hello World Lambda 函数 无 须 配 置 权 限 即 可 工作 ， 因 为 它 不 使 用 任何 其 他 AWS 资源 。 
更 新 的 函数 需要 访问 AWS SageMaker， 否 则 将 报错 。 

Chalice 提供 了 一 个 名 为 policy-devjson 的 文件 , 用 于 设置 权限 。 你 可 以 在 .chalice 文件 夹 中 找 
到 它 ， 该 文件 夹 与 你 刚刚 使 用 的 app.py 文件 在 同一 文件 夹 中 。 导 航 到 .chalice 文件 夹 后 ， 你 将 看 
到 policy-devjson 文件 。 用 VS Code 打开 它 ， 并 将 其 内 容 蔡 换 为 代码 清单 8-3 的 内 容 。 




















注意 如 果 你 不 想 打 字 或 复制 粘贴 ， 可 以 下 载 policy-dev.json 文件 。 


代码 清单 8-3 ”policy-devjson 的 内 容 
( 








"Version": "2012-10-17", 
"Statement": | 
{ 
"Sid": "VisualEditor0O", 
"Effect": "Allow", 
"ACtLOmY Ss | 


"logs:CreateLogStream", 
"logs:PutLogEvents", 
"logs:CreateLogGroup" 

j 


"Resource": "arn:awSs:10gS:*:*:*n 


raid": "VisualEditorl", 
i A I 


"Action": "sagemaker: InvokeEndpoint", 
eels 添加 调用 SageMaker 
端点 的 权限 
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你 的 API 现 在 有 调用 SageMaker 冰点 的 权限 。 在 将 代码 部 普 到 AWS 之 前 ， 你 还 有 一 个 步 又 
要 执行 。 


8.6.5 ”更 新 requirements.txt 文 件 





你 需要 指示 Lambda 函数 安装 stugify， 以 便 应 用 程序 可 以 使 用 这 个 库 。 为 此 ， 可 以 将 代码 清 
单 8-4 中 的 内 容 添加 到 与 app.py 文件 位 于 同一 文件 夹 的 requirements.txt 文件 中 。 
代码 清单 8-4 _ requirements.txt 的 内 容 


python-slugify 


在 准备 好 部 署 Chalice 之 前 ， 更 新 requirements.txt 是 你 需要 做 的 最 后 一 步 。 











8.6.6 部署 Chalice 


最 后 ， 是 时 候 部 署 代 码 以 便 访 问 山 点 了 。 在 VS Code 的 终端 窗口 中 ， 从 tweet escalator 文件 
夹 中 ， 键 入 : 


chalice deploy 


这 会 在 AWS 上 重新 创建 你 的 Lambda 困 数 ， 其 中 增加 了 以 下 两 点 。 
口 现在 ，Lambda 函数 具有 调用 SageMaker 并 点 的 权限 。 
口 Lambda 函数 已 安 疙 了 slugify 库 ， 因 此 该 函数 可 以 使 用 slugify 库 。 


8.7 ”提供 决 东 服务 


总 结 一 下 ， 在 本 章 中 ， 你 设置 了 SageMaker 端点 ， 在 计算 机 上 配置 7 了 AWS， 并 创建 和 部 署 
了 Web 端点 。 下 面 可 以 开始 使 用 了 。 我 们 终于 来 到 了 最 后 一 步 : 

(1) 设置 SageMaker 病 点 ; 

(2) 在 本 地 计算 机 上 配置 AWS; 

(3) 创建 一 个 Web 端点 ; 

(4) 提供 决策 服务 。 

要 查看 API， 请 在 运行 chalice deploy 之 后 单 击 终端 窗口 展示 的 Rest API URL 链接 ， 如 
图 8-22 所 示 。 由 于 我 们 没有 更 改 输出 ， 因 此 仍 展示 Hello World 页 面 ， 如 图 8-23 所 示 。 


- Rest API URL: https://g81qvzw5m]j .execute-api.us-east-1.amazonaws .com/api/ 


图 8-22 在 Web 浏 览 硕 中 用 于 访问 端点 的 Rest API URL 














C 自 https://g8Ilqvzw5mj.execute-api.us-east-1.amazonaws.com/api/ 





{"hello":"world"} 


图 8-23 ”仍然 显示 Hello World 页 面 


8.8 ”小结 1 77 


要 查看 对 推 文 的 啊 应 结果 ， 你 需要 在 浏览 大 的 地 址 栏 输入 路 由 。 输 入 的 路 由 示例 如 图 8-24 
所 示 。 在 浏览 套 地 址 栏 的 URL 末尾 ( 最 后 的 /之 后 )， 证 人 tweet ENe=EeeseEeEERREEEE 
with-dashes-instead-of-spaces, 然后 按 Enter 键 。 


C 自 https://ifsilqanztg.execute-api.us-east-1.amazonaws.cotn/api/tweet/l-am-very-angry 





{"Tweet":"I-am-very-angry","Tokenized tweet":["i am very angry"],，"Escalate": "Yes"，Confidence" :1.66666989437163271} 


图 8-24 推 文 的 啊 应 结果 : Iam very angry (我 很 生气 ) 


现在 ， 网 页 上 展示 的 啊 应 结果 将 从 {"hello" : "world"} 变 为 
{"Tweet":"I-am-very-angry", "Tokenized tweet":["1i1 am very angry"], 
"Escalate":"Yes","Confidence":1.0000098943710327} 
响应 结果 展示 从 地 址 栏 提取 的 推 文 、 经 过 slugify 处 理 后 的 令 牌 化 推 文 、 关 于 是 和 否 上 报 该 推 
文 的 建议 〈 在 这 个 例子 中 ， 答 案 是 Yes )， 以 及 该 建议 的 置信 和 度 。 
要 测试 其 他 短语 ,只 需要 在 地 址 栏 中 将 其 键入 即 可 。 例如, 输入 thanks-i-am-happy-with- 
your-service 会 生成 图 8-25 所 示 的 啊 应 结果 。 不 出 所 料 ， 给 出 的 建议 是 不 要 上 报 该 推 文 。 








所 C ( @ ite-apius-east-1.amazonaws.com/api/tweet/thanks-i-am-happy-with-your-service| 侈 


{"Tweet":"thanks-i-am-happy-with-your-service","Tokenized tweet":["thanks i am happy with your 
service"],"Escalate":"No","Confidence":1.860001660135863223} 


图 8-25 推 文 的 啊 应 结果 : thanks I am happy with your service (谢谢 ， 我 对 你 的 服务 很 满意 ) 
看 到 一 条 否定 的 推 文 [ 例如 将 “Iam angry”( 我 很 生气 ) 变 成 “Iamnot angry”( 我 不 生气 ) | 


的 结果 ， 这 很 有 和 趣 。 你 可 能 希望 API 建议 不 要 上 报 , 但 通常 并 非 如 此 。 图 8-26 展示 了 对 此 推 文 
的 啊 应 结果 。 可 以 看 到 它 仍 建议 上 报 ， 但 它 的 置信 和 度 要 低 得 多 ， 降 到 了 52%。 











C 鱼 https://ifslqanztg.execute-api.us-east-1.amazonaws.com/api/tweet/l-am-not-angry 


{"Tweet":"I-am-not-angry","Tokenized tweet":["i am not angry"],"Escalate":"Yes","Confidence":0.5256766476211548} 
图 8-26 ” 推 文 的 啊 应 结果 : Iam not angry ( 我 不 生气 ) 
要 了 解 上 报 的 原因 ， 你 需要 查看 推 文 的 数据 源 。 当 你 查看 否定 的 推 文 时 ,会 看 到 许多 推 文 被 
标记 为 上 报 ， 因 为 否定 的 短语 是 表示 诅 丧 的 较 长 推 文 的 一 部 分 。 例 如 ， 一 个 稼 见 的 推 文 醒 式 是 某 
人 发 推 文 :“Tm not angry, TDm just disappointed.”( 我 不 生气 ， 我 只 是 失望 。) 























8.8 ”小 结 


口 为 了 在 互联 网 上 部 署 机 带 学 习 模型 ， 你 需要 将 该 端点 骏 露 给 互联 网 。 如 今 ， 你 可 以 提供 
包含 模型 的 Web 应 用 程序 ， 而 不 必 担 心 设置 Web 服务 硕 的 复杂 性 。 
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口 AWS Lambda 是 可 以 按 需 启动 的 Web 服务 硕 ， 是 一 种 更 具 成 本 效益 的 通过 API 提供 预 测 
的 方式 。 

口 SageMaker 端点 还 可 以 回 API 提供 预测 服务 ， 然 后 这 可 用 于 通过 Web 回 用 户 提 供 预 测 和 
决策 服务 ， 并 且 你 可 以 设置 该 端点 ， 仅 加 有 权 访 问 该 问 点 的 用 户 开放 使 用 。 

口 要 将 推 文 的 文本 作为 URL 传递 ， 推 文 的 文本 不 能 包含 不 允许 在 浏览 如 地 址 栏 中 键入 的 任 
何 字 符 。 

口 可 以 使 用 slugify ( 而 非 NLTK ) 设置 SageMaker 闪 点 来 标准 化 推 文 。slugify 通常 用 于 将 文 
本 转换 为 网 站 URL。 

口 可 以 在 名 为 AWS Lambda 的 AWS 无 服务 器 技术 上 设置 无 服务 器 API SageMaker 端点 。 为 
了 让 AWS Lambda 知道 该 怎么 做 ， 你 逢 要 安装 Chalice Python 库 。 

口 要 访问 SageMaker 端点 ,你 的 无 服务 吕 API 必须 具 有 访问 权限 ,使 用 Microsoft 的 VS Code， 
你 可 以 通过 创建 访问 密 钥 在 AWS 账户 中 设置 证 书 , 然后 在 本 地 计算 机 上 设置 AWS 证 书 。 

口 你 可 以 在 本 地 计算 机 上 设置 AWS CLI 和 boto3 库 ， 以 便 在 本 地 计算 机 上 使 用 AWS 资源 。 

口 为 了 创建 无 服务 器 函数 ， 你 了 解 了 AWS Lambda 函数 和 AWS API Gateway 服务 ， 以 及 它 
们 与 Chalice 一 起 使 用 有 多 么 容易 。 

口 你 部 署 了 一 个 API， 该 API 返回 是 否 将 推 文 上 报 给 Naomi 文 持 团队 的 有 关 建 议 。 

















案例 研究 





本 草 要 点 

口 回 闫 本 书 的 要 扣 

口 两 个 公司 如 何 使 用 机 带 学 习 来 优化 其 业务 
@ 案例 研究 1: 在 公司 实施 单个 机 此 学 习 项 目 
案例 人 研究 2: 在 公司 的 所 有 核心 业务 中 实施 机 休学 习 


在 本 书 ， 你 已 使 用 AWS SageMaker 构建 了 常见 业务 问题 的 解决 方案 。 这 些 解 决 方案 涵盖 了 
很 多 场景 和 方法 。 

口 使 用 XGBoost 监督 学 习 来 解决 审批 路 由 的 难题 。 

口 重新 格式 化 数据 ， 以 便 可 以 再 次 使 用 XGBoost， 但 这 次 可 以 预测 客户 流失 。 

口 使 用 BlazingText 和 NLP 技术 来 确定 是 否 应 将 一 条 推 文 上 报 给 支持 团队 。 

口 使 用 无 监督 的 随机 裁剪 牺 林 算法 来 决定 是 否 问 询 供应 商 的 发 票 。 

口 使 用 DeepAR 根据 历史 趋势 预测 能 耗 。 

口 补充 天 气 预 报 和 假期 安排 等 数据 集 以 改善 DeepAR 的 预测 结 

在 上 一 草 中 ， 你 学 习 了 如 何 使 用 AWS 的 无 服务 融 技 术 在 web 上 提供 预测 和 决策 服务 。 下 面 
将 总 结 一 下 两 家 不 同 的 公司 如 何在 其 业务 中 实施 机 需 学 习 。 

在 第 1 章 中 , 我 们 提出 了 观点 : 我 们 正 处 于 业务 生产 率 大 幅 增 长 的 风口 浪 尖 上 ,并 有 旦 这 种 增 
长 部 分 得 益 于 机 融 学 习 。 每 家 公司 都 希望 提高 生产 率 , 但 他 们 发 现 很 难 实现 这 一 目标 。 在 机 硕 学 
习 出 现 之 前 ， 如果 一 家 公司 想 要 提高 生产 率 , 就 需要 实施 和 整合 一 系列 一 流 的 软件 或 者 改变 其 业 
务实 践 ， 以 完全 迎合 其 ERP 系统 的 工作 方式 。 这 会 大 大 减缓 公司 的 变 单 步伐， 因为 其 业务 要 人 么 
由 许多 不 同 的 系统 组 成 ， 要么 就 是 一 整套 的 系统 (也 就 是 ERP 系统 )。 有 了 机 可 学 习 ， 公 司 可 以 
将 许多 操作 保留 在 其 核心 系统 中 ,并 使 用 机 带 学 习 来 协助 流程 中 的 关键 点 进行 自动 化 决策 。 使 用 
这 种 方法 ， 公 司 可 以 维持 一 个 系统 的 坚实 核心 ， 但 仍 可 以 利用 现 有 的 最 佳 技术 。 

在 第 2~7 章 中 ， 我 们 研究 了 如 何在 流程 的 特定 节点 上 使 用 机 带 学 习 来 做 出 决定 (批准 采 购 
订单 、 重 新 联系 有 流失 风险 的 客户 、 上 报 推 文 以 及 审核 发 票 )， 以 及 如 何 使 用 机 需 学 习 根 据 历 史 
数据 和 其 他 相关 数据 集 ( 基于 过 去 的 使 用 情况 和 其 他 信息 ， 如 天 和 气 预 报 和 将 来 临 的 假期 ) 来 进行 
预测 。 


















































180 第 9 章 案例 研究 








我 们 在 本 章 讨 论 的 两 个 案例 人 研究 展示 了 在 业务 中 采用 机 可 学 习 时 的 儿 种 不 同 观 点 。 第 一 个 案 
例 人 研究 关注 的 是 一 家 劳务 派 遗 公司 , 它 使 用 了 机 硕 学 习 来 目 动 化 其 求职 者 面 坛 过 程 中 的 一 个 耗 时 
部 分 。 这 家 公司 正在 壬 试 使 用 机 带 学 习 ， 看 它 如 何 解 决 业务 中 的 各 种 难题 。 第 二 个 案例 研究 关注 
的 是 一 家 软件 公司 ,该 公司 已 拥有 了 机 带 学 习 的 核心 技术 , 但 希望 应 用 机 带 学 习 来 加 快 更 多 的 工 
作 流 程 。 下 面 来 看 看 这 些 案例 人 研究 中 的 公司 如 何 利用 机 融 学 习 来 优化 其 业务 实践 。 








9.1 案例 研究 1: WorkPac 


WorkPac 是 澳大利亚 最 大 的 私 冶 秀 务 派 遗 公司 之 一 。 每天， 成 二 上 万 的 工人 被 外 包 给 数 干 个 
客户 。 每 天 ， 为 了 维护 一 个 合适 的 求职 者 资源 库 ，WorkPac 都 会 有 团队 对 求职 者 进行 面试 。 

面试 过 程 可 以 看 作 一 个 流水 线 , 求职 者 在 最 上 层 进入 一 个 狮 斗 ， 然 后 随 着 他 们 往 下 走 ， 被 分 
为 几 个 大 类 。 招聘 人 员 是 某 一 特定 类 别 的 专家 ,他 们 会 根据 技能 、 经 验 、 能 力 和 兴趣 这 些 元 数据 
对 求职 者 进行 科 选 。 用 这 些 响 选 方法 ， 可 以 为 每 个 空缺 职位 找到 合适 的 求职 

图 9-1 显示 了 分 类 过 程 的 简化 视图 ,求职 者 简历 进入 源 斗 的 项 部 ,然后 被 分 到 不 同 的 职位 类 别 。 

















< 玉 、 职位 类 别 


卡车 司机 化 验 员 工程 师 


图 9-1 将 求职 者 分 到 不 同类 别 的 职位 漏斗 
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自动 化 分 类 漏斗 的 好 处 可 以 想见 , 它 可 以 腾 出 时 间 让 招聘 人 员 专 注 于 收集 有 关 求 职 者 的 元 数 
据 ， 而 不 是 对 求职 者 进行 分 类 。 使 用 机 带 学 习 模 型 进行 分 类 的 为 一 个 好 处 是 ,在 后 续 阶 段 , 一些 
元 数据 的 收集 也 可 以 目 动 化 。 

在 实现 机 需 学 习 应 用 程序 之 前 , 当 求职 者 通过 WorkPac 的 求职 者 门户 网 站 提交 简历 时 , 普通 
的 招聘 人 员 会 对 简历 分 类 , 并 有 可 能 因为 需要 补充 元 数据 转交 给 专业 的 招聘 人 员 。 通过 这 一 流程 
后 ,其 他 招聘 人 员 就 可 以 找到 求职 者 了 。 例如 ， 如 采 求 职 者 被 归 类 为 卡车 司机 ,那么 想 要 填补 卡 
车 司机 职位 空缺 的 招聘 人 员 就 可 以 找到 他 。 

现在 WorkPac 已 实现 了 机 各 学 习 应 用 程序 , 将 最 初 的 分 类 工作 交 由 机 各 学 习 算 法 来 完成 。 这 
个 项 目的 下 一 阶段 是 实现 一 个 聊天 机 需 人 , 它 可 以 提取 一 些 元 数据 , 进一步 节省 了 招聘 人 员 的 宝 
中 时间 。 























9.1.1 项 目 设 计 


WorkPac 考虑 了 两 种 目 动 分 类 求职 者 的 方法 : 

口 一 个 简单 的 求职 者 关键 字 分 类 系统 ; 

口 一 种 对 求职 者 进行 分 类 的 机 需 学 习 算 法 。 

关键 字 分 类 系统 风险 低 , 但 回报 也 低 。 就 像 第 2 章 介绍 的 审批 路 由 场景 一 样 ， 关 键 字 分 类 需 
要 持续 的 时 间 和 精力 来 识别 新 的 关键 字 。 举 个 例子 ， 如 果 Caterpillar 发 布 了 一 款 名 为 797F 的 新 
型 采矿 卡车 , 那么 WorkPac 必须 更 新 其 关键 字 列 表 以 将 该 术语 与 卡车 司机 相关 联 。 采 用 机 器 学 习 
方法 可 确保 在 制造 商 发 布 新 车 时 ， 机 需 学 习 模 型 会 将 797F 车 与 卡车 司机 联系 起 来 。 

机 天 学 习 方 法 会 惠 来 较 高 的 回报 , 但 也 会 种 来 较 高 的 风险 ,因为 这 将 是 WorkPac 首次 交付 机 
器 学 习 项 目 。 机 顺 学 习 项 目 与 标准 IT 项 目 不 同 。 对 于 典型 的 开 项 目 ， 有 定义 项 目 和 结果 的 标准 
方法 。 当 运行 一 个 IT 项 目 时 ， 你 会 事先 知道 最 终 的 结果 。 你 有 一 张 地 图 ， 然 后 按照 路 线 走 到 最 
后 。 但 是 ， 有 了 机 融 学 习 项 目 ， 你 就 更 像 一 个 探险 家 。 随 着 你 对 地 形 了 解 更 多 ， 你 的 路 线 也 会 改 
变 。 机 各 学 习 项 目 需 要 较 多 的 迭代 和 较 少 的 先决 条 件 。 

为 了 帮助 克服 这 些 挑战 ，WorkPac 保留 了 Blackbook.ai 的 服务 来 协助 他 们 。Blackbook.ai 是 一 
家 目 动 化 和 机 需 学 习 软 件 公 司 ， 该 公司 为 其 他 业务 提供 服务 。WorkPac 和 Blackbook.ai 制定 了 一 
个 项 目 计划 ,通过 分 阶段 交付 解决 方案 , 可 以 让 他 们 建立 起 对 机 融 学 习 方 法 的 信任 。 该 项 目 所 经 
历 的 阶段 通常 是 机 需 学 习 自 动 化 项 目的 典型 阶段 。 

口 第 一 阶段 : 准备 并 测试 模型 以 验证 可 以 使 用 机 需 学 习 进 行 决策 。 

口 第 二 阶段 : 在 工作 流程 中 实施 概念 验证 (POC )。 

口 第 三 阶段 : 将 流程 戏 入 公司 的 运营 中 。 


9.1.2 第 一 阶段 :准备 并 测试 模型 


第 一 阶段 涉及 构建 机 佛学 习 模 型 以 对 现 有 简历 进行 分 类 。WorkPac 具有 20 多 年 的 分 类 简历 
数据 ， 因 此 他 们 有 大 量 的 数据 可 用 于 训练 。Blackbook.ai 使 用 OCR 技术 从 简历 中 提取 文本 ,并 在 
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文本 上 对 模型 进行 训练 。Blackbook.ai 有 足够 的 数据 ， 二 全 只 位 关 别 中 选择 相等 
数量 的 简历 在 训练 和 调 优 模型 后 , 该 模型 的 F 分 数 达 到 了 0.7, 这 是 一 个 合适 的 分 数 。 


F 分 数 
F 分 数 ( 也 称 为 Fl 分数 ) 是 对 机 器 学 习 模 型 性 能 的 度量 。 在 第 3 章 中 ， 你 学 习 了 如 何 创 
建 一 个 混 消 短 阵 ， 显 示 假 阳性 和 假 阴 性 预测 的 数量 。F 分 数 是 总 结 机 器 学 习 > 结果 的 另 一 种 


方法 。 学 习 如 何 计 算 上 分 数 的 最 佳 方法 是 用 例子 来 说 明 。 
表 9-1 总 结 了 机 器 学 习 算 法 对 50 个 样本 的 预测 结果 。 该 算法 试图 预测 是 否 应 将 某 个 特定 
求职 者 归 类 为 卡车 司机 、 化 验 员 或 工程 师 。 


表 9-1 展示 求职 者 预测 结果 的 数据 表 


预测 (卡车 司机 ) /位 预测 (化 验 员 ) /位 预测 工程师 ) /位 [= 
实际 的 “卡车 司机 ) 11 4 0 15 
实际 的 (化 验 员 ) 4 9 2 15 
实际 的 《工程 师 ) 3 3 14 20 
总 让 18 16 16 S0 


表格 的 第 1 行 表 明 ， 实际 情况 中 是 卡车 司机 的 15 位 来 职 者 中 , 该 算法 正确 地 预测 了 11 位 
卡车 司机 ， 错误 地 预测 了 4 位 化 验 员 。 该 算法 没有 将 任何 卡车 司机 错 判 为 工程 师 。 同样 ， 对 于 
第 2 行 (化 验 员 )， 该 算法 正确 地 预测 了 9 位 化 验 员 确实 是 化 验 员 ， 但 错误 地 预测 了 4 位 卡车 
司机 和 2 位 工程 师 。 如 果 看 第 1 行 ( 实际 是 卡车 司机 )， 你 会 说 15 个 预测 中 有 11 个 是 正确 的 ， 
这 被 称 为 算法 的 精确 率 。11/15 的 结果 表示 该 算法 对 卡车 司机 的 精确 率 约 为 73%。 

你 还 可 以 看 数据 的 每 一 列 。 如 果 看 第 一 列 : 预测 结果 (卡车 司机 )， 你 会 发 现 该 算法 预测 
了 18 位 求职 者 为 卡车 司机 。 在 这 18 个 预测 结果 中 ,有 11 个 是 正确 的 , 7 个 是 错误 的 ， 其 中 有 
4 位 化 验 员 和 3 位 工程 师 被 错误 地 预测 为 卡车 司机 ， 这 被 称 为 算法 的 召回 率 。 该 算法 正确 地 召 
回 了 18 个 预测 结果 中 的 11 个 (的 为 61% )。 

从 这 个 例子 中 ,， 可 以 看 出 精确 率 和 召回 率 的 重要 性 。73% 的 精确 率 结 果 看 起 来 不 错 ， 但 当 
你 考虑 到 只 有 61% 的 卡车 司机 的 预测 结果 正确 时 ,结果 看 起 来 就 不 那么 信人 满意 .下 分 数 使 用 
以 下 公式 将 这 些 数 汇总 为 单个 值 . 

(( 精 确 率 x 召回 率 )/( 精 确 率 + 召回 率 )) x 2 

使 用 表 中 的 值 ， 计 算 结 果 为 

((0.73 x 0.61)/(0.73+0.61)) x 2 = 0.66 


因此 第 es 0 法 对 整个 表 的 下 分 类 ee 
( 如 本 例 所 示 )， 则 结果 通常 接近 精确 率 。 但 是 ,查看 每 个 类 别 的 上 分 数 对 观察 其 中 是 完全 
不 同 的 召回 浴 台 ， 有 用 。 


9.1 染 例 研究 ]: WorkPac 183 


在 这 个 阶段 ，Blackbook.ai 开发 并 完善 了 他 们 的 方法 ， 用 于 将 简历 转换 为 可 以 输入 其 机 楷 学 
习 模 型 中 的 数据 。 在 模型 开发 阶段 ， 这 个 过 程 中 的 许多 步骤 是 手动 的 ,但 Blackbook.ai 计划 目 动 
执行 这 些 步 又 。 在 下 分 数 超过 0.7 并 有 相应 的 流程 月 动 化 计划 之 后 ，Blackbook.ai 和 WorkPac 进 
入 项 目的 第 二 阶段 。 





9.1.3 ”第 二 阶段 : 实施 POC 


第 二 阶段 涉及 构建 POC， 该 POC 将 机 带 学 习 模 型 整合 到 WorkPac 的 工作 流程 中 。 像 许多 涉 
及 机 可 学 习 的 业务 流程 优化 项 目 一 样 , 这 一 部 分 比 机 融 学 习 部 分 花费 的 时 间 更 长 。 从 风险 角度 来 
看 ， 该 项 目的 这 一 部 分 是 一 个 标准 IT 项 目 。 

在 此 阶段 ，Blackbook.ai 构建 了 一 个 工作 流程 ， 该 流程 将 求职 者 上 传 的 简历 分 类 ， 然 后 将 简 
历 和 分 类 结果 呈现 给 相关 业务 的 少数 招聘 人 员 。 接着 ,Blackbook.ai 从 招聘 人 员 那 里 获取 了 反馈 ， 
并 将 他 们 的 建议 整合 到 工作 流程 中 。 工 作 流 程 得 到 批准 后 , 他 们 进入 了 项 目的 最 后 阶段 一 一 实施 
和 推广 。 


9.1.4 第 三 阶段 : 将 流程 胎 入 公司 的 运营 中 


该 项 目的 最 后 阶段 是 在 整个 WorkPac 中 推广 该 流程 。 这 通 弟 需要 耗费 大 量 时 间 , 因为 它 涉及 
构建 错误 捕获 机 制 ， 以 便 流 程 能 在 生产 环境 中 运行 ,另外 还 涉及 对 员工 进行 新 流程 的 培训 。 尽 管 
很 费时 间 ， 但 此 阶段 的 风险 很 低 ， 只 要 第 二 阶段 用 户 的 反馈 是 积极 的 即 可 。 











9.1.5 ” 接 下 来 的 工作 


现在 , 简历 已 被 日 动 分 类 ，WorkPac 可 以 构建 并 推出 基于 特定 工作 类 型 进行 训练 的 聊天 机 可 
人 ， 以 从 求职 者 那里 获取 元 数据 ( 例如 工作 经 历 和 经 验 ) 这 使 他 们 的 招聘 人 员 可 以 将 工作 重点 
放 在 最 有 价值 的 地 方 ， 而 不 用 花费 时 间 收 集 有 关 求 职 者 的 信息 。 


9.1.6 ”了 吸取 的 教训 


机 融 学 习 项 目 中 的 耗 时 方面 在 于 ， 需 要 获取 数据 以 供 模型 使 用 。 在 这 种 情况 下 ， 数 据 存 在 
于 PDF 格式 的 简历 文档 中 。Blackbook.ai 无 须 花 费时 间 来 构建 自己 的 OCR 数据 提取 服务 ， 而 是 
通过 使 用 商业 简历 数据 提取 服务 来 解决 此 问题 。 这 样 一 来 ， 他 们 就 可 以 以 较 低 的 成 本 立即 开始 
行动 。 如 采 这 个 服务 的 成 本 过 高 ， 则 可 以 准备 一 个 单独 的 业务 案例 ， 以 内 部 应 用 程序 代替 OCR 
服务 。 

为 了 训练 机 硕 学 习 模 型 ，Blackbook.ai 还 需要 有 关 现 有 文档 的 元 数据 。 要 获取 此 元 数据 ， 需 
要 使 用 SQL 查询 从 WorkPac 的 系统 中 提取 信息 , 而 从 WorkPac 的 内 部 团队 获取 此 数据 非常 耗 时 。 
WorkPac 和 Blackbook.ai 都 同音 应 该 在 一 次 研讨 会 完成 此 工作 ， 而 不 是 随 着 时 间 的 推移 提出 一 系 
列 请 求 。 
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9.2 ”案例 研究 2: Faethm 


Faethm 是 一 家 以 人 工 智能 (AI) 为 核心 的 软件 公司 。Faethm 软件 的 核心 是 一 个 系统 ， 该 系 
统 可 以 根据 当前 的 员工 队伍 结构 绪 合 机 融 学 习 、 机 带 人 和 目 动 化 等 新 兴 技 术 , 预测 几 年 后 的 公司 
会 是 什么 样子 。Faethm 的 数据 科学 团队 占 到 了 其 员工 的 四 分 之 一 以 上 。 








9.2.1 Al 核心 


以 AI 为 核心 的 公司 意味 着 什么 呢 ? 图 9-2 展示 了 Faethm 平台 的 构建 方式 。 请 注意 平台 的 每 
个 方面 是 如 何 将 数据 问 Faethm 的 AI 引 警 驱动。 





公司 的 每 个 音 | 务 ; 馈 给 其 局 | 区 父 
Faethm Platform Construct 会 司 的 每 个 部 分 都 将 数据 反馈 给 其 AL 引 淮 


TECHNOLOGY (OY SAAS PLATFORM (82M+ DATA RECORDS) WORKFORCE 
ADOPTION MODEL ATTRIBUTION MODEL 


Shows the pace and magnitude of Pp Neural Network + NLP Defines job Automation, Augmentation and 
technology impacts over time ee + Boosted Decision Trees Addition at a task level, to enable impact 
knows how client data maps assessments. 


Technology Availability S$-Curves lasx 
Proprietary taxonomy of 17 application into Faethm analytics Job Analytics 


categories and 6 infrastructure categories Support Vector Machine Al ENGINE 1,500+ jobs and 60,000+ job tities each 
knows which job 


5 will be 


Neural Network + Random Forest described in 244 attributes (skilis, 
Augmented / Automate ay to future jobs 


Technology readiness and adoption rates d by technology knows the best pathway to fut jDbs knowledge， abilities, context, activities, 
for each category, across 18 industries and 总 | 
152 countries AN Task and Capability Analytics 

: ! Work atomised into 20,000+ tasks, and 
Technol Adoption < 
i et 4 3 (O) 6 36-45 合 defined in 32 future capabilities 

\ O -SS 和 
Faethm R&D and V CONTEXTUAL Giobal insights 
Expert Elicitation : Job Titles Salary Workplace CLIENTDATA OrgUnit nder ALBesdmnents tor 2 Bon 
of the World’'s workforce 


Country and Industry Adoption S-Curves 





图 9-2 ”Faethm 运 党 模型 的 各 个 部 分 部 将 数据 癌 其 AI5| 擎 驱动 


Faethm 将 其 两 个 主要 数据 模型 ( 拉 术 采用 模型 和 筋 动 力 归 属 模型 ) 与 AI 引擎 中 的 客户 数据 
相 结 合 ， 以 预测 公司 未 来 几 年 的 变化 。 


9.2.2 ”使 用 机 器 学 习 优 化 Faethm 公 司 的 流程 


这 个 案例 研究 的 重点 并 不 在 于 Faethm 的 AI 引擎 如 何 预 测 一 家 公司 在 未 来 儿 年 的 变化 , 而 在 
于 业务 的 更 多 运营 环节 : 如 何 更 快 、 更 准确 地 吸引 新 用 户 ? 具体 来 说 ， 如 何 才 能 更 准确 地 将 客户 
的 员工 与 Faethm 的 职位 类 别 进行 匹配 ?这 个 过 程 适 合 Faethm 的 平台 架构 中 展示 的 第 4 部 分 的 
“上 下 文 客户 数据 ”， 如 图 9-2 所 示 。 

图 9-3 展示 了 一 个 公司 的 组 织 结构 被 转化 为 Faethm 的 职位 分 类 。 正 确 的 职位 分 类 很 重要 ， 
因为 分 类 后 的 职位 会 作为 Faethm 建 模 应 用 程序 的 起 点 。 如 果 职 位 不 能 反映 出 客户 当前 的 员工 队 
伍 ， 那 么 最 终 的 结果 会 不 正确 。 
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客户 的 员工 队伍 Faethm 职 位 分 类 


头衔 1 头衔 2 职位 A 
头衔 3 L 头衔 5 -一 一 一 一 一 一 一 一 一 世 职位 B 
头衔 4 头衔 6 职位 C 


图 9-3 职位 描述 分 类 漏斗 








年 一 看 ， 这 与 WorkPac 面临 的 挑战 类 似 ，Faethm 和 WorkPac 都 在 对 职位 进行 分 类 。 关 键 的 
区 别 在 于 输入 的 数据 。WorkPac 有 20 年 有 标签 的 简历 数据 , 而 Faethm 只 有 几 年 的 职位 头衔 数据 。 
因此 ，Faethm 将 项 目 分 为 四 个 阶段 。 

口 第 一 阶段 : 获取 数据 。 

口 第 二 阶段 : 识别 特征 。 

口 第 三 阶段 : 验证 结果 。 

口 第 四 阶段 : 应 用 到 生产 环境 中 。 


9.2.3 第 一 阶段 : 获取 数据 

Faethm 在 2017 年 开始 运 党 时， 团队 手动 将 客户 的 职位 头衔 数据 归 类 。 随 着 时 间 的 推移 ， 它 
开发 了 一 些 实 用 工具 来 加 快 这 一 过 程 ， 但 对 新 客户 的 职位 头衔 进行 分 类 仍 需要 专家 等 人 员 手 动 
进行 。Faethm 和 布 望 利用 其 丰 军 的 机 融 学 习 专 业 知 识 来 和 目 动 化 这 个 过 程 。 

Faethm 决定 使 用 SageMaker 的 BlazingText 算法 。 这 在 一 定 程 度 上 是 由 于 需要 BlazingText 通 
过 子 词 创 建 向 量 来 处 理 未 收录 词 。 














什么 是 未 收录 语 

如 第 4 章 所 述 ,BlazingText 将 单词 转换 成 名 为 疝 量 的 数字 字符 串 。 向 量 不 仅 代 表 一 个 单词 ， 
而 且 还 代表 它 所 处 的 不 同上 下 文 。 如果 机 器 学 习 模 型 仅 能 根据 已 有 的 全 部 单词 创建 向 量 ,那么 
它 对 于 没有 出 现 过 的 单词 就 无 能 为 力 。 

对 于 职位 头衔 , 很 多 单词 可 能 不 会 出 现在 训练 数据 中 。 例如 ,可 以 训练 该 模型 来 识别 骨 肠 
病 学 家 ( gastroenterologist ) 和 神经 系 放射 学 家 (neuroradiologist )， 但 是 当 它 遇 到 胃 肠 放射 科 
学 家 ( gastrointestinal radiologist ) 时 可 能 会 发 异 。 例 如 ，BlazingText 的 子 词 向 量 使 该 模型 可 以 
处 理 胃 肠 放 射 科学 家 之 类 的 词 ， 因 为 这 些 词 是 根据 gas、tro、radio 和 logist 创建 的 向 量 ， 即 
使 这 些 术语 只 是 基于 该 模型 训练 的 词 的 子 词 。 
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Faethm 需要 克服 的 第 一 个 问题 是 获得 足够 的 训练 数据 。Faethm 不 必 等 到 对 足够 数量 的 客户 
进行 手动 分 类 ， 而 是 使 用 其 实用 工具 来 创建 大 量 与 现 有 公司 相似 但 不 完全 相同 的 分 类 职位 头衔 。 
其 











训练 数据 
你 可 能 无 须 担忧 对 数据 打上 标签 。Workpac 之 所 以 能 够 使 用 欠 采 样 和 过 采样 来 平衡 其 类 
别 ， 是 因为 他 们 有 20 年 的 带 有 标签 的 数据 。 当 你 在 公司 中 寻找 机 器 学 习 的 机 会 时 ， 可 能 会 发 
现 自己 也 处 于 类 似 的 情况 , 那 就 是 最 适合 实现 机 器 学 习 的 流程 很 早 就 有 人 做 过 了 ， 你 有 其 历史 
决策 作为 训练 数据 。 


Faethm 数据 的 另 一 个 复杂 之 处 在 于 其 类 别 的 不 平衡 。 他 们 归 类 为 菜 些 头衔 的 工作 六 位 有 数 
百 个 样本 (例如 ， 运 党 经 理 )， 而 其 他 只 有 一 个 样本 。 为 了 解决 这 种 不 平衡 的 问题 ，Faethm 调整 
了 每 个 类 别 的 权重 〈 就 像 你 在 第 3 章 中 使 用 XGBoost 所 做 的 那样 )。 现 在 ， 有 了 庞大 的 有 标签 的 
数据 集 ，Faethm 可 以 开始 构建 模型 了 。 





9.2.4 第 二 阶段 : 识别 特征 


一 旦 有 了 数据 ，Faethm 就 会 查看 其 他 将 可 能 对 职位 头衔 进行 角色 分 类 的 特征 。 在 模型 中 发 
现 的 两 个 重要 特征 是 行业 和 薪资 。 例如 , 咨询 公司 或 银行 的 分 析 师 通常 与 矿业 公司 的 分 析 师 角色 
不 同 ， 年 收入 $0 000 美元 的 运营 经 理 与 年 收入 250 000 美元 的 运营 经 理 角 色 也 不 尽 相 同 。 

通过 请 求 每 个 员工 的 经 理 提 供 匿 名 的 employee id，Faethm 能 构建 两 个 额外 的 特征 : 首先 ， 
每 个 职位 都 有 直接 下 属 的 员工 比例 ; 其 次 ， 每 个 职位 都 有 需要 加 其 管理 者 汇报 的 员工 比例 。 这 两 
个 特征 的 加 入 使 准确 率 进一步 得 到 了 显著 提高 。 




















9.2.5 ”第 三 阶段 : 验证 结果 

在 SageMaker 中 构建 模型 后 ，Faethm 能 够 自动 将 客户 的 员工 队伍 进行 职位 分 类 ， 以 作为 
Faethm 预测 模型 的 输入 。Faethm 随后 对 员工 队伍 进行 了 人 工分 类 ， 并 识别 出 异常 情况 。 经 过 几 
轮 调 优 和 验证 ，Faethm 能 够 将 流程 应 用 到 生产 环境 中 。 


9.2.6 ”第 四 阶段 :应 用 到 生产 环境 中 

在 生产 环境 中 应 用 该 算法 只 是 用 机 器 学 习 算 法 替代 了 人 类 决策 。Faethm 的 专家 没有 做 出 决 
定 ， 而 是 把 时 间 花 在 验证 结果 上 。 因 为 验证 所 需 时 间 比 分 类 所 需 时 间 少 , 所 以 他 们 的 工作 效率 也 
得 到 了 极 大 的 提高 。 
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9.3 结论 


在 案例 研究 中 , 你 沿 看 一 家 刚刚 开始 机 血 学 习 的 公司 来 到 了 一 家 将 机 可 学 习 整 合 到 内 部 方 方 
面 面 的 公司 。 本 书 的 目的 是 为 你 提供 在 业务 中 使 用 机 带 学 习 的 上 下 文 和 技能 。 

在 整 本 书 中 ,我 们 提供 了 一 些 示例 , 说 明了 如 何 将 机 末 学 习 应 用 到 业务 活动 中 的 决策 点 ， 从 
而 不 用 让 人 参与 其 中 。 与 基于 规则 的 编程 相 比 ， 通 过 使 用 机 各 学 习 应 用 程序 而 非 人 工 进行 决策 ， 
你 可 以 获得 双重 好 处 ， 即 结果 更 加 一 致 并 且 更 稳健 。 

本 章 展 示 了 当今 使 用 机 融 学 习 的 公司 对 机 带 学 习 的 不 同 观 点 。 在 你 的 公司 中 , 以 下 每 种 观点 
都 有 助 于 评估 你 应 解决 的 问题 和 原因 。 
































9.3.1 ”观点 1: 建立 信任 


WorkPac 和 Blackbook.ai 确保 项 目 有 可 实现 且 可 衡量 的 结果 , 并 在 整个 项 目 过 程 中 分 块 交 付 。 
这 些 公 司 还 确保 他 们 定期 汇报 进度 ， 并 在 每 个 阶段 都 不 做 过 高 的 承诺 。 这 种 方法 使 项 目 无 须 
WorkPac 的 执行 团队 信心 高 涨 就 可 以 启动 。 




















9.3.2 观点 2: 正确 获取 数据 


有 两 种 理解 正确 获取 数据 的 方式 。 这 两 种 方式 都 很 重要 : 理解 该 短语 的 第 一 种 方式 是 ,数据 
需要 尽 可 能 地 准确 和 完整 ; 第 二 种 方式 是 , 你 需要 正确 构建 提取 数据 并 将 其 输入 机 各 学 习 流 程 的 
整个 过 程 。 

当 进 入 生产 环境 时 ， 你 需要 能 够 将 数据 无 缝 地 输入 模型 中 。 考 愿 一 下 如 何 执行 此 操作 ， 如 采 
可 能 ， 请 在 训练 和 测试 过 程 中 进行 设置 。 如 果 你 在 开发 过 程 中 自动 从 源 系 统 中 提取 数据 , 那么 该 
过 程 会 在 进入 生产 环境 时 经 过 充分 测试 以 确保 稳健 。 


9.3.3 观点 3: 设计 操作 模式 以 充分 利用 机 咒 学 习 能 力 


一 旦 能 在 公司 中 使 用 机 带 学 习 , 你 就 应 该 考虑 如 何在 尽 可 能 多 的 地 方 使 用 此 功能 ,以 及 如 何 
让 尽 可 能 多 的 事务 通过 模型 来 处 理 。Faethm 在 考虑 一 项 新 计划 时 的 第 一 个 问题 可 能 是 ， 这 如 何 
为 其 A1 引擎 提供 支持 ?在 公司 中 , 你 寻找 新 的 商机 时 会 想 问 :“ 这 个 新 的 机 会 如 何 融 入 我 们 现 有 
的 模式 ， 或 者 如 何 用 来 增强 我 们 现 有 的 能 力 ?” 


9.3.4 观点 4: 在 各 个 方面 都 使 用 了 机 器 学 习 后 ， 你 的 公司 看 起 来 怎么 样 


当 公 司 从 第 一 个 机 从 学 习 项 目 发展 到 在 各 个 方面 使 用 机 融 学 习 时 , 会 看 起 来 大 不 相同 , 尤其 
是 公司 的 员工 队伍 会 发 生变 化 。 为 这 一 变 摆 做 好 准备 的 员工 队伍 是 公司 成 功 的 关键 。 

介绍 了 这 些 观点 和 本 书 各 章 的 技能 之 后 , 我 们 希望 你 准备 好 了 应 对 日 己 公司 的 流程 。 如 琳 管 
案 是 肯定 的 ， 那 么 我 们 已 经 完成 了 目标 ， 视 你 一 切 顺利 。 























188 第 9 齐 案例 研究 


9.4 小结 


DO 你 与 WorkPac 公司 一 起 开始 了 他 们 的 第 一 个 机 各 学 习 项 目 。 
口 你 看 到 了 Faethm 这 家 经 验 丰 晤 的 机 各 学 习 公司 如 何 将 机 各 学 习 融 入 其 为 一 个 流程 中 。 





注册 AWS 





AWS 是 Amazon 的 云 服 务 。 在 撰写 本 书 时 ， 它 在 云 服务 市 场 上 的 份额 超过 了 Microsoft 和 
Google 这 两 个 最 大 的 苑 争 对 于 。 

AWS 包含 大 量 服务 ， 从 服务 右 到 存储 ， 青 到 用 于 识别 文本 和 图 像 的 专用 机 带 学 习 应 用 程序 。 
实际 上 ， 使 用 云 服务 最 困难 的 一 个 方面 是 了 解 每 个 组 件 的 功能 。 我 们 茧 励 你 探索 AWS 服务 的 广 
度 , 但 本 书 仅 使 用 其 中 两 个 : S3(AWS 的 文件 存储 服务 ) 和 SageMaker ( AWS 的 机 和 硕 学 习 平台 )。 

本 附录 将 指导 设置 AWS 账户 , 附录 B 将 指导 你 设置 和 使 用 S3, 附录 C 将 指导 你 设置 和 使 用 
SageMaker。 如 果 你 已 有 AWS 账户 , 请 跳 过 本 附录 并 转 到 附录 B， 附录 B 将 向 你 展示 如 何 配 置 S3。 

你 需要 提供 你 的 信用 卡号 才能 获得 AWS 账户 , 但 除非 你 超过 免费 套餐 限制 , 否则 无 须 付 费 。 

















注意 你 应 该 能 够 在 不 超出 为 新 账户 提供 的 免费 套餐 限制 的 情况 下 完成 本 书 的 所 有 练习 。 


A.1 注册 AWS 


要 注册 AWS， 请 访问 AWS 网 站 。 
来 到 这 里 以 后 ， 单 击 Sign Up 并 浏览 提示 。 第 一 个 表单 (要求 你 提供 电子 邮件 地 址 、 密 码 和 
用 户 名 ， 如 图 A-1 所 示 。 


Create an AWS account 
1. 输入 你 的 详细 


邮件 地 址 
Email address 
ch02a@hudgeon.com 
AWS Accounts Include - 
: Password 
12 Months of Free Tier Access = 
Including use of Amazon EC2, Amazon S3, and Amazon DynamoDB Confirm password 


AWS account name @ 


2. 输入 你 的 AWS 一 一 ch02 
账户 名 和 





图 A-1 创建 AWS 账户 : 步骤 1 (输入 电子 邮件 地 址 、 密 码 和 用 户 名 ) 
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接 下 来 ， 选 择 一 种 账户 类 型 ( 本 书 使 用 Personal ) 并 输入 其 他 详细 信息 ， 如 图 A-2 所 示 。 


Contact Information 


All fields are required. 


Please select the account type and complete the fields below with your contact details. 


Account type © 1. 单 击 Personal 
OO Professional & (®) Personal i 
Full name rr me 
4 字 站 其 
ch02 pr 详细 信息 


Phone number 


图 A-2 创建 AWS 账户 : 步骤 2 (选择 账户 类 型 ) 


接 下 来 ,输入 你 信用 卡 的 详细 信息 ， 如 图 A-3 所 示 。 


Payment Information 


Please type your payment information so we can verify your identity. We will not charge 
you unless your usage exceeds the AWS Free Tier Limits. Review frequently asked 
duestions for more information. 


Credit/Debit card number 


~ 


Epiration dale 输入 信用 卡 的 详细 信息 (除非 
re 你 超出 了 免费 套餐 的 额度 ， 否 
则 不 用 付费 ) 


Cardholders name 


图 A-3 创建 AWS 账户 : 步骤 3 (输入 信用 卡 的 详细 信息 ) 
下 一 页 的 表单 与 验证 你 的 账户 有 关 。 作 为 计算 服务 提供 商 , 精通 技术 的 用 户 或 许 会 尝试 免费 
获得 AWS 服务 。 因 此 ， 验 证 过 程 包 括 几 个 步骤 。 第 一 步 验证 是 通过 键入 令 人 讨厌 的 显示 字符 进 
行 安全 检查 ， 如 图 A-4 所 示 。 
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Phone Verlification 


AWS will call you immediately using an automated system. When prompted, enter the 
4-digit number from the AWS website on your phone keypad. 


Provide a telephone number 


Please enter your information below and click the 
"Call Me Now" button. 


1. 提供 你 的 


Phone number Ext 电话 号 码 
Security Check 


Die p Fh ~“harar 人 a/ ~ hn 
Please type the characters as shown above 





2. 输入 安全 验证 字符 


图 A-4 验证 你 的 账户 信息 : 匹配 验证 三 


单 击 Call Me Now 开始 第 二 个 验证 步骤 ， 在 此 你 将 收 到 来 目 AWS 的 自动 呼叫 。 它 将 要 求 你 
键入 页 面 上 显示 的 4 位 数字 ， 如 图 A-5 所 示 。 
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Call in progress... 


Please answer the call from AWS and, when prompted, enter 
the 4-digit number on your phone keypad. 


你 会 接 到 一 个 AWS 的 


电话 ， 要 求 你 输入 页 
面 上 显示 的 数字 





图 A-5 “验证 你 的 账户 信息 : 输入 4 位 数字 
你 现在 已 通过 验证 ， 可 以 继续 进行 下 一步， 如 图 A-6 所 示 。 





Your identity has been verified successfully. 


单 击 Continue 





图 A-6 创建 AWS 账户 : 步骤 4 (身份 验证 确认 ) 
接 下 来 ， 选 择 你 所 需 的 计划 ， 如 图 A-7 所 示 。 人 免费 计划 足以 满足 本 书 的 学 习 和 需求 。 
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Select a Support Plan 








AWS offers a selection of support plans to meet your needs. Choose the support plan that 
best aligns with your AWS usage. Learn more 


可 加 量 
可 旦 去 








Basic Plan Developer Plan Business Plan 
| Fe | | From $29/month ] ] From $100/month ] 
。 Included with all 。 For early adoption, 。 For production workloads 
accounts testing and development & business-critical 
dependencies 
。 24/7 self-service access 。 Email access to AWS 
to forums and resources Support during business 。 24/7 chat, phone, and 
hours email access to AWS 
。 Best practice checks to Support 
help improve Security 。 1 primary contact can 
and performance open an unlimited *。 Unlimited contacts can 
number of support cases open an unlimited 
。 Access to health status number of support cases 
and notifications 。 12-hour response time 
for nonproduction 。 1-hour response time for 
systems production systems 


Need Enterprise level support? 


Contact your account manager for additional information on running business and mission 
critical-workloads on AWS (starting at $15,000/month). Learn more 


图 A-7 创建 AWS 账户 : 步 又 5 (选择 一 个 支持 计划 ) 


茶 喜 ， 你 现在 已 完成 了 注册 ， 如 图 A-8 所 示 。 在 你 登录 AWS 控制 台 并 转向 附录 B， 以 了 解 
如 何 设 置 S3 和 SageMaker 之 前 ， 先 来 看 一 下 AWS 的 收费 。 


Welcome to Amazon Web | Sonintotoconsoe | 


Services ] i 


Thank you for creating an Amazon Web Services Account. We are 
activating your account, which should only take a few minutes. You will 
receive an email when this is complete. 





图 A-8 ”创建 AWS 账户 : 成 功 
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A.2 AWS 账 单 概述 


AWS 对 于 使 用 资源 〈 例 如 , 本 书 使 用 的 机 条 学 习 服 务 SageMaker ) 是 按 秒 计 费 的 。 当 你 注册 
了 一 个 新 的 AWS 账户 时 , 在 前 12 个 月 内 可 以 免费 使 用 所 需 的 资源 来 完成 本 书 的 练习 。 虽 然 可 以 
使 用 的 资源 数量 有 限 ， 但 免费 服务 足以 完成 本 书 的 所 有 练习 。 

如 果 你 有 现成 的 AWS 账户 ， 那 么 会 癌 你 收取 使 用 AWS 资源 的 费用 。 但 是 ， 如 采 你 讶 慎 使 
用 以 确保 在 不 使 用 资源 时 停 目 服务， 那么 只 需 花 费 10~20 美元 就 可 以 完成 本 书 的 所 有 练习 。 














设置 并 使 用 S3 以 存储 文件 








S3 是 AWS 的 文件 存储 系统 。 在 本 书 , 你 将 使 用 S3 来 存储 机 带 学 习 数 据 文 件 以 及 在 SageMaker 
中 创建 机 需 学 习 模 型 后 的 数据 文件 。 本 附录 将 回 你 介绍 如 何 设置 一 个 存储 桶 来 保存 本 书 中 的 示例 
代码 。 





注意 如 果 你 尚未 注册 AWS， 请 转 到 附录 A， 该 附录 提供 了 有 关 如 何 执行 此 操作 的 详细 信息 。 


要 登录 AWS 控制 台 ， 请 访问 AWS 网 站 ， 输 入 你 的 电子 邮件 地 址 和 密码 。 登 录 后 ， 你 将 看 
到 一 个 AWS 标题 。 在 AWS 下 的 文本 框 中 ， 键 入 $3 以 查找 S3 服务 ， 然 后 按键 盘 上 的 Enter 键 。 

AWS 使 用 存储 桶 的 概念 来 确定 你 存储 文件 的 位 置 。 来 到 S3 后 要 做 的 第 一 件 事 是 , 设置 一 个 
存储 桶 来 存储 本 书 中 的 文件 。 如 果 你 已 创建 了 存储 桶 ， 那 么 在 转 到 S3 后 应 该 会 看 到 一 个 显示 存 
储 桶 的 存储 桶 列表 ， 如 图 B-1 所 示 。 











Fe Amazon S3 QD Discover the new console Y Quick tips 


中 Create bucket 1 Buckets 0 Public 1 Regions 2 


Date created 


ccess 个 


Bucket name 


A 
单 击 存储 数 据 集 的 存储 桶 


/ Oct 29, 2018 
鼠 hudgeon-mlforbusiness Not public * 7:49:37 AM 


GMT+1100 





图 B-1 S3 中 用 来 存储 本 书 中 用 到 的 代码 和 数据 的 存储 桶 列表 


你 将 在 此 存储 桶 中 为 本 书 中 使 用 的 每 个 数据 集 创建 一 个 文件 夹 。 这 对 你 后 面 的 所 有 工作 来 说 
是 个 好 习惯 : 使 用 存储 桶 根据 用 户 访 问 权限 来 区 分 工作 内 容 ; 使 用 文件 夹 来 区 分 数据 集 。 
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B.1 在 S3 中 创建 和 设置 存储 桶 


你 可 以 将 存储 桶 视 为 目录 中 的 顶层 文件 夹 。4AWS 之 所 以 将 它们 称 为 存储 桶 ， 是 因为 它们 在 
全 球 范 围 内 是 唯一 的 。 这 意味 着 你 的 存储 桶 不 能 与 其 他 人 创建 的 存储 桶 同名 。 这 样 做 的 好 处 是 ， 
每 个 存储 桶 部 可 以 在 Web 上 分 配 唯一 的 地 址 ， 并 且 任 何 知 道 存储 桶 名 称 的 人 都 可 以 跳 转 到 该 存 
储 桶 ( 当然 ,你 知 要 先 授予 他 们 访问 存储 桶 的 权限 ,然后 才能 访问 该 存储 桶 或 查看 其 中 的 内 容 )。 
第 一 次 在 新 账户 中 打开 S3 服务 时 ， 系 统 会 通知 你 ， 你 没有 任何 存储 桶 ， 如 图 B-2 所 示 。 














如 来 没有 任何 存储 桶 ， 
你 会 看 到 以 下 页 面 


+ Create bucket 0 Buckets OU2TTF 0 Regions 


You do not have any buckets. Here is how to get started with Amazon 
S3. 


面 ” 画 9 So 
Create a new bucket Upload your data SR 





图 B-2 ”你 创建 存储 桶 之 前 的 S3 控制 面板 


要 创建 第 一 个 存储 桶 ， 请 单 击 Create Bucket。 现 在 ， 要求 你 提供 有 关 存 储 桶 的 信息 。 问 导 将 
引导 你 完成 4 个 步骤 : 

口 命名 存储 桶 ; 

口 设置 存储 桶 的 属性 ; 

口 设置 权限 ; 

口 查看 设置 。 
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B.1.1 步骤 1: 命名 存储 桶 
图 B-3 显示 了 向 导 的 步骤 1， 该 步骤 可 帮助 创建 存储 桶 。 


Name and region 


Bucket name 癌 


doug-hudgeon-mlforbusiness4a 一 一 输入 存储 桶 名 称 


Copy settings from an existing bucket 


You have no buckets0Q Buckets \ 





图 B-3 创建 存储 桶 癌 导 的 步骤 1: 命名 存储 桶 


在 此 步骤 中 ， 你 将 为 存储 桶 命名 ， 并 设置 其 相关 信息 。 在 本 书 中 ， 出 于 练习 的 目的 ， 创 建 一 
个 唯一 的 存储 桶 名 称 ( 如 你 的 名 字 )， 后 面 跟 着 mlforbusiness。 如 果 有 人 已 经 创建 了 一 个 具有 相 
同名 称 的 存储 桶 ， 那 么 可 能 需要 在 你 的 名 字 后 面 加 上 一 些 随机 数 。 





注意 存储 桶 的 名 称 只 能 包含 可 以 显示 在 有 效 网 址 中 的 字符 。 这 意味 着 它 不 能 包含 空格 。 通 常 
也 使 用 连 字 符 ( -) Ra 
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B.1.2 ”步骤 2: 设置 存储 桶 的 属性 


接 下 来 需要 为 存储 桶 设置 属性 ， 图 B-4 展示 了 步 对 2。 在 这 里 ， 你 可 以 资 明 如 何 对 存储 桶 中 
的 文件 进行 版 本 控制 、 记 录 和 标记 。 无 须 在 此 处 进行 任何 更 改 ， 因 此 请 单 击 Next。 


Create bucket 


(3) Set permissions (4) Review 


NA 
(v) Name and region (2) Set properties 


Versioning 


Keep multiple versions of an object in 


the same bucket. 


Leam more 


Tags 


Use tags to track your cost against 
projects or other criteria. 


Learn more 


Server access logging 
Set up access log records that provide 
details about access requests. 


Leam more 


Object-level logging 


Record object-level API activity using 
the CloudTrail data events feature 


(additional cost). 
Learn more 


单 击 Next 


Previous Next 


图 B-4 创建 存储 桶 向 导 的 步骤 2: 设置 属性 


MY 
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B.1.3 步骤 3: 设置 权限 


权限 使 你 可 以 指定 谁 可 以 访问 你 的 存储 桶 ， 图 B-5 显示 了 步骤 3。 在 大 多 数 情况 下 ， 你 可 能 
只 布 望 目 己 访问 存储 桶 ， 因 此 可 以 保留 献 认 设置 的 权限 。 同 样 单 击 此 页 面 上 的 Next。 


WE ll I 


UserlD Objects Oe] (=o 


四 Read 


ch02a(Ownen) writ vv write 
rite 


Access for other AWS account 


Account Objects Object permissions 


Manage public permissions 


Do not grant public read access to this bucket (Recommended) v 


Manage system permissions 


Do not grant Amazon S3 Log Delivery group write access to this bucket 单 击 Next 、 





图 B-5 创建 存储 桶 回 导 的 步骤 3: 设置 权限 


B.1.4 步骤 4: 查看 设置 


在 这 里 ， 你 可 以 检查 设置 并 进行 任何 必要 的 更 改 ， 如 网 B-6 所 示 。 如 果 你 按照 之 前 的 说 明 进 
行 操作 ， 则 无 须 进 行 任 何 更 改 ， 因 此 请 单 击 Create bucket。 
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Properties 


Versioning Disabled 
Server access logging Disabled 
ETe le [iile 0 Tags 

Object-level logging Disabled 


Default encryption None 


Permissions 


Users 1 
Public permissions Disabled 单 击 Create bucket 


System permissions Disabled 





图 B-6 创建 存储 桶 向 导 的 步 又 4: 查看 设置 
单 击 Submit 后 ， 你 将 回 到 S3。 图 B-7 显示 了 刚刚 创建 的 存储 桶 。 既 然 你 已 设置 了 存储 桶 ， 
就 可 以 在 存储 桶 中 设置 文件 夹 了 。 


| Amazon S3 


1 Buckets 0 1 Regions 2 


Date created 
Bucketname ?三 单 击 存储 你 的 数据 集 Aess 中 7= E 
的 存储 桶 一 


Oct 29, 2018 
鼠 hudgeon-mlforbusiness i Not public * 7:49:37 AM 
GMT+1100 





图 B-7 S3 中 包含 你 刚刚 创建 的 存储 桶 的 存储 桶 列表 
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B.2 在 S3 中 设置 文件 夹 


上 一 市 创建 了 一 个 存储 桶 来 保存 本 书 的 所 有 文件 和 代码 。 本 方 将 设置 一 个 文件 夹 来 保存 第 2 
董 的 文件 和 代码 。 一 旦 你 擎 握 了 这 些 要 点 ， 就 可 以 轻松 地 为 其 他 章 设置 文件 夹 了 。 

你 可 以 将 S3 中 的 存储 桶 视 为 项 层 文件 来。 你 将 在 此 附录 中 创建 的 文件 夹 是 该 项 层 文件 夹 的 
人 类。 

在 本 书 中 ,你 在 摘 述 存储 桶 的 内 容 时 会 看 到 诸如 “文件 来” 之 类 的 术语 , 但 该 术语 并 不 完全 
准确 。 实 际 上 , 在 S3 存储 桶 中 没有 文件 夹 之 类 的 东西 。 只 是 在 用 户 界 面 里 看 起 来 如 此 , 但 S3 存 
储 桶 实际 上 并 没有 分 层 存 储 。 

更 准确 地 说 ，S3 中 的 存储 桶 是 你 可 以 轻松 限制 访问 的 Web 位置 。S3 存储 棚 中 的 每 个 文件 都 
位 于 存储 桶 的 项 层 。 在 S3 中 创建 文件 夹 时 ， 它 看 起 来 像 一 个 文件 来 ， 但 它 只 是 存储 在 存储 桶 项 
层 的 文件 ， 其 命名 方式 类 似 于 文件 夹 。 

例如 ， 在 本 附录 设置 的 存储 桶 中 ， 你 会 创建 一 个 名 为 ch02 的 文件 来， 并 将 一 个 名 为 
orders with _predicted_value.csy 的 文件 放 入 其 中 。 实 际 上 ,你 只 是 在 存储 桶 中 创建 具有 该 名 称 的 
文件 。 奋 要 使 用 更 准确 的 术语 ， 文 件 名 是 键 ， 文 件 内 容 是 值 。 因 此 ， 存 储 桶 只 是 一 个 存储 键 / 值 
对 的 Web 位 置 。 

你 将 在 刚刚 创建 的 存储 桶 中 为 你 所 使 用 的 每 个 机 融 学 习 数 据 集 创建 一 个 单独 的 文件 夹 。 首 
先 ， 单 击 Create bucket， 然 后 单 击 Create folder 并 将 其 命名 为 ch02， 如 图 B-8 所 示 。 



































Amazon S3 > doug-hudgeon-mlforbusiness 


Overview 


es 单 击 Create folder 


This bucket is empty. Upload new objects to get started. 


人 


Upload an object Set object properties pone 








图 B-8 在 $3 中 创建 文件 夹 
为 存储 桶 命名 后 ， 请 单 击 Save， 如 图 B-9 所 示 。 
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Amazon S3 > doug-hudgeon-mlforbusiness 


Q Type a prefix and press Enter to search. Press ESC to clear. 


十 ”Upload 中 Create folder | More ~ 




















Name 1 人 二 Last modified 人 二 Size 个 = Storage class 1 二 


吃 | ch02 个 一 一 一 命名 文件 夹 为 ch02 


When you create a folder, S3 console creates an object with 
the above name appended by suffix "/" and that object is 
displayed as a folder in the S3 console. Choose the encryption 
setting for the object: 


®@) None (Use bucket settings) 


AES-256 


Use Server-Side Encryption with Amazon S3-Managed Keys (SSE- 
S3) 


AWS-KMS 


Use Server-Side Encryption with AWS KMS-Managed Keys (SSE- 
KMS) 





Save | Cancel 








图 B-9 命名 S3 中 的 文件 夹 


返回 S3 页 面 后 ， 你 会 看 到 在 自己 刚刚 创建 的 存储 桶 中 ， 有 一 个 名 为 ch02 的 文件 来， 如 图 
B-10 所 示 。 


Amazon S3 > doug-hudgeon-mlforbusiness 


| Q Typea prefix and press Enter to search. Press ESC to clear 














se co 


Last modified 1= ize 个 = Storage class 1= 


Viewing 1to 1 


Viewing 1to 1 








图 B-10 单 击 进 入 S3 中 的 文件 夹 
现在 你 已 在 S3 中 设置 好 了 文件 来， 可 以 上 传 数据 文件 并 开始 在 SageMaker 中 设置 预测 模型 了 。 
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B.3 将 文件 上 传 到 S3 


要 上 传 数据 文件 ， 请 在 单 击 文件 夹 后 ,下载 数据 文件 。 
然后 单 击 Upload， 将 其 上 传 到 ch02 文件 夹 ， 如 图 B-11 所 示 。 


Overview 


Q Type aprefix and press Enter to search. Press ESC to clear. 


全 Upload 




















图 B-11 上 传 数据 至 S3 
上 传 文件 后 ， 它 将 出 现在 S3 中 ， 如 图 B-12 所 示 。 


Overview 








QA Typea prefix and press Enter to search. Press ESC to clear 


J 


| | Name 1= 
图 B-12 S3 中 的 数据 集 列 表 


在 附录 C 中 ， 你 将 学 习 如 何 设 置 AWS SageMaker。 





设置 并 使 用 AWS SageMaker 





SageMaker 是 Amazon 用 于 构建 和 部 署 机 器 学 习 模 型 的 环境 。 让 我 们 看 一 下 它 提供 的 功能 。 
SageMaker 具有 单 命 性 ， 因 为 它 

口 用 作 云 上 的 开发 环境 ， 因 此 你 不 必 在 计算 机 上 设置 开发 环境 ; 

口 基于 你 的 数据 使 用 预 配置 的 机 器 学 习 模 型 ; 

口 使 用 内 置 工具 来 验证 机 可 学 习 模 型 的 结 

口 部 署 你 的 机 需 学 习 模 型 ; 

口 自动 设置 一 个 接收 新 数据 并 返回 预测 结果 的 端点 。 





C.1 设置 


首先 ， 你 需要 将 AWS 区 域 设 置 为 SageMaker 提供 的 区 域 。 

SageMaker 界面 允许 你 使 用 4 个 主要 组 件 。 

口 控制 面板 : 你 的 SageMaker 主页 。 

口 笔记 本 实例 : 承载 笔记 本 的 EC2 服务 船 。 

口 模型 : 你 在 Jupyter 笔记 本 中 创建 的 机 需 学 习 模 型 。 

口 端 点 : 托管 模型 并 允许 你 进行 预测 的 EC2 服务 硕 。 

首先 将 设置 SageMaker 来 处 理 数 据 。 下 一 市 将 指导 你 完成 此 操作 。 然 后， 在 第 2 革 中 ,你 将 
了 解 如 何 开始 使 用 SageMaker 以 及 如 何 上 传 要 使 用 的 文件 ; 还 将 学 习 如 何 访 问 该 文件 。 


C.2 ”从 控制 面板 开始 


当 你 第 一 次 导航 到 SageMaker 服务 时 ,你 会 看 到 一 个 工作 流程 ,其 中 包含 一 个 桩 色 按钮 ， 显 
示 Create Notebook Instance。 单 击 它 来 设置 服务 硕 以 运行 Jupyter 笔记 本 。 











附录 C 设置 并 使 用 AWS SageMaker 来 构建 机 器 学 习 系 统 205 


C.3 创建 笔记 本 实例 


图 C-1 显示 了 设置 笔记 本 实例 所 需 完 成 的 字段 。 第 一 个 字段 设置 你 的 笔记 本 实例 名 称 。 在 本 
书 各 草 ， 你 将 使 用 相同 的 实例 名 称 一 一 mlforbusiness。 








Notebook instance settings 


Notebook instance name 为 笔记 本 实例 输入 一 个 名 称 


一 = 一 


Notebook instance type 


Cr 先 择 ml.t2.medium 
ml.t2.medium 4 


IAM role 
AmazonSageMakerFullAccess 1AM i 
创建 一 个 新 的 [AM 角 色 
AmazonSageMaker-ExecutionRole-20181104T065503 i 4 来 运行 笔记 本 实例 


Custom IAM role ARN 


VPC - optional 


No VPC 时 


Lifecycle configuration - optional 


No configuration v 


Encryption key - optional 


No Custom Encryption 了 


Volume Size In GB - optional 


5 


图 C-1 要 创建 新 实例 ， 你 需要 填写 3 个 信息 字段 : 实例 名 称 、 实 例 类 型 和 IAM 角色 。 


接 下 来 是 笔记 本 实例 类 型 ( 将 运行 Jupyter 笔记 本 的 AWS 服务 天 的 类 型 )。 这 会 设置 笔记 本 
将 使 用 的 服务 部 的 大 小 。 对 于 你 将 在 本 书 中 使 用 的 数据 集 ， 中 型 服务 部 就 足够 了 了 ， 因 此 选择 
mlt2.medium。 

第 三 个 设置 是 IAM 角 色 。 最 好 创建 一 个 新 角色 来 运行 你 的 笔记 本 实例 。 单 击 Create New Role， 
通过 选择 带 有 该 标签 的 选项 ， 授 予 其 访问 任何 S3 存储 桶 的 权限 ， 然 后 单 击 Create Role。 之 后 ， 
其 他 都 可 以 选择 默认 值 。 
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AWS 和 资源 
AWS 服务 器 具有 各 种 性 能 选项 。 除 非 你 采用 免费 套餐 ( 注册 后 即 可 使 用 12 个 月 )， 否 则 
AWS 会 向 你 收取 使 用 计算 机 资源 的 费用 ， 其 中 包括 AWS 服务 器 。 幸 运 的 是 ， 它 们 按 秒 收费 。 
但 你 可 能 想 要 确保 使 用 最 小 的 服务 器 。 
对 于 本 书 的 练习 ，ml.t2.medium 服务 器 足以 处 理 我 们 的 数据 集 。 在 撰写 本 文 时 ， 此 服务 器 
的 成 本 低 于 每 小 时 0.05 美元 。 


C.4 局 动笔 记 本 实例 


现在 ， 你 会 在 列表 中 看 到 笔记 本 实例 。 当 SageMaker 为 你 设置 EC2 服务 器 时 ， 状 态 显 示 挂 
起 的 时 间 约 5 分钟。 为 避免 来 日 AWS 的 意外 费用 ， 请 记 住 回 到 这 里 ， 并 在 EC2 服务 需 准 备 就 绪 
后 单 击 Actions 下 显示 的 Stop 链接 。 
当 你 看 到 Actions 下 出 现 Open 时 ， 请 单 击 它 ，Jupyter 笔记 本 在 另 一 个 选项 卡 中 启动 。 你 距 
离 完 成 (第 一 个 ) 机 融 学 习 模 型 仅 几 步 之 遥 。 


C.5 将 笔记 本 上 传 到 笔记 本 实例 
笔记 本 实例 启动 后 ， 你 会 看 到 一 个 目录 表 ， 其 中 包含 几 个 文件 来。 这些 文 件 夹 包含 样本 


SageMaker 模型 ,但 我 们 现在 不 再 关注 这 些 。 相 反 ， 如 图 C-2 所 示 , 通过 单 击 New 并 在 下 朱琳 单 
底部 选择 Folder， 创 建 一 个 新 文件 夹 来 保存 本 书 的 代码 。 

















Si 」 U pyter Open JupyterLab Quit 


1. 选择 New 
Files Running Clusters Examples Conda ee 


Select items to perform actions on them. Upload [New | 人 


Do ~ wm/ 上 


R (Beta) 

DQ DO ch02 Sparkmagic (PySpark) 
口 D lost+found conda_mxnet_p36 

器 口 sample-notebooks conda_python 
conda_python3 
conda_pytorch_p27 
conda_ pytorch_p36 
conda tensorflow_p27 


conda tensorflow_p36 


Text File cp 
Folder AA— — 2. 选择 
Folder 


Terminal 





图 C-2 在 你 的 SageMaker 实例 中 可 用 的 笔记 本 列表 
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勾 选 Untitled Folder 劳 边 的 复 选 框 时 ， 会 出 现 Rename 按钮 。 单 击 此 按钮 并 将 文件 夹 名 称 更 
改 为 ch02， 然 后 单 击 ch02 文件 夹 以 查看 空 的 笔记 本 列表 。 图 C-3 显示 了 空 的 笔记 本 列表 。 








一 Jupyter 


Files Running Clusters SageMaker Examples Conda 
Select items to perform actions on them. 单 击 Upload 按 钮 上 传 笔 记 本 一 一 Upload Newv 2 


D0 ~ Mm/ ch02 NameyY LastModified 


[3. seconds ago 





图 C-3 空 的 笔记 本 列表 和 Upload 按钮 


就 像 我 们 已 经 准备 好 你 上 传 到 $3 的 CSV 数据 一 样 ， 我 们 也 已 经 准备 好 了 现在 要 使 用 的 Jupyter 
笔记 不 。 

然后 单 击 Upload 按钮 ， 将 笔记 本 tech-approval-required 上 传 到 此 文件 夹 。 

上 传 文件 后 ， 你 会 在 列表 中 看 到 笔记 本 ,图 C-4 展示 了 你 的 笔记 本 列表 。 单 击 tech-approval- 
required.ipynb 将 其 打开 。 











3 Jupyter 


Files Running Clusters SageMaker Examples 


yu 


Select items to perform actions on them. Upload | Newv 仿 


seconds ago 


- em/ ch02 下 单 击 tech-approval-required.ipynb Name 由 Last Modified File size 


L| 8 tech-approval-required.ipynb adayago 98.3KkB 





图 C-4 笔记 本 列表 : tech-approval-required.ipynb 

你 距离 完成 机 带 学 习 模 型 还 有 几 步 之 遥 。 
C.6 ”运行 笔记 本 

你 可 以 在 一 个 笔记 本 单元 格 中 运行 代码 , 也 可 以 在 多 个 单元 格 中 运行 代码 。 要 在 一 个 单元 格 
中 运行 代码 ， 请 单 击 该 单元 格 以 将 其 选中 ， 然 后 按 Ctrl+Enter 组合 键 。 这 样 做 时 ， 你 会 在 单元 格 
的 左 侧 看 到 一 个 星 号 (* ), 这 意味 着 该 单元 格 中 的 代码 正在 运行 。 当 星 号 变 为 数字 时 ,代码 就 完 
成 了 运行 。( 数字 表示 上 自打 开 笔 记 本 以 来 已 运行 了 多 少 个 单元 格 。 ) 

要 在 多 个 单元 格 ( 或 整个 笔记 本 ) 中 运行 代码 ,请 在 Jupyter 笔记 本 顶部 的 工具 栏 中 单 击 Cell， 


然后 单 击 Run All。 
好 了 。 现 在 ， 你 可 以 开始 人 研究 第 2 章 的 场景 ， 并 开始 创建 机 需 学 习 应 用 程序 了 。 




















俘 止 全 部 服务 








熟悉 SageMaker 的 最 后 一 步 是 集 止 笔记 本 实例 并 删除 你 创建 的 端点 。 如 果 不 这 样 做 ，AWS 
将 持续 每 小 时 为 笔记 本 实例 和 端点 回 你 收取 几 美 分 的 费用 , 保 止 笔记 本 实例 并 删除 端 操 知 要 你 执 
行 以 下 操作 。 

口 删除 并 点 。 

口 俘 止 笔记 本 实例 。 


D.1 删除 端点 


要 停止 文 付 端点 的 费用 ,你 需要 删除 该 端点 。 但 是 ,不 用 担心 
你 做 的 工作 ， 重 新 运行 笔记 本 时 ， 将 自动 为 你 创建 端点 。 

要 删除 端点 ,请 在 查看 SageMaker 选项 卡 时 在 左 侧 荣 单 上 单 击 i 
Endpoints。 图 D-1 展示 了 Inference 下 拉 某 单 中 的 Endpoints 采 单项 。 

你 将 看 到 所 有 正在 运行 的 端点 列表 。 为 确保 不 为 未 使 用 的 端点 
文 付费 用 , 应 删除 所 有 未 使 用 的 端点 。( 请 记 住 , 端点 很 容易 创建 ， ”图 D-1 Endpoints 菜单 项 
因此 ， 即 使 你 只 有 几 个 小 时 不 使 用 端点 ， 或 许 也 和 希望 将 其 删除 。) 
图 D-2 显示 了 端点 列表 以 及 运行 的 问 点 。 








vy Inference 


Models 





Amazon SageMaker 


Seareh endpoint 表示 端点 正在 运行 > | 多 
Namx 了 ARN M4 Last update 


order- arn:aws:sagemaker:us- Jun 25, 2018 © InService Jun 25, 2018 
rvi 
approval east-1:060148268882:endpoint/order-approval 22:28 UTC 22:34 UTC 








图 D-2 端点 列表 展示 了 运行 的 端点 。 删 除 你 不 使 用 的 端点 


要 删除 端点 , 请 单 击 order-approval 名 称 左 侧 的 单 选 按钮 。 然 后 单 击 Actions 菜单 项 并 单 击 出 
现 的 Delete 菜单 项 ， 如 图 D-3 所 示 。 
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Amazon SageMaker Endpoints 





单 击 Delete 
Endpoints | Update endpoint Actions v | 
a Add/Edit tags 1 全 
Name v ARN Creation time ™ Status 有 Last updated 


order- arn:aws:sagemaker:us- Jun 25, 2018 Jun 25, 2018 
approval east-1:060148268882:endpoint/order-approval 22:28 UTC 22:34 UTC 


© InService 





图 D-3 允许 你 删除 端点 的 下 拉 选 项 


现在 已 删除 了 该 端点 , 因此 你 将 不 再 为 此 支付 AWS 费用 。 当 你 在 Endpoints 页 面 看 到 “There 
are currently no resources” 时 ， 可 以 确认 所 有 端点 已 删除 ， 如 网 D-4 所 示 。 


Amazon SageMaker Endpoints 
Q Search endpoints 1 他 
Name 如 ARN Creation time 。 玫 Status “如 Last updated 


There are currently no resources. 生 全 一 Dn 点 已 成 功 删 除 








图 D-4 ”验证 是 否 已 删除 所 有 端点 


D.2 停止 笔记 本 实例 


最 后 一 步 是 停止 笔记 本 实例 。 与 端点 不 同 , 无 须 删除 笔记 本 。 你 只 需 将 其 停止 ， 以 便 再 次 局 
动 它 ， 且 它 可 以 使 用 Jupyter 笔记 本 中 的 所 有 代码 。 要 停止 笔记 本 实例 ， 请 单 击 SageMaker 左 侧 
亲 单 中 的 Notebook instances。 图 D-5 显示 了 SageMaker 某 单 中 的 Notebook instances 选项 。 























Amazon SageMaker Xx 


Dashboard 


单 击 Notebook instances 


v Notebook 


Notebook instances 


Lifecycle configurations 


9 Training 
Training jobs 
Hyperparameter tuning jobs 
9 lnference 
Models 
Endpoint configurations 


Endpoints 


图 D-5 ”SageMaker 末 单 中 的 Notebook instances 荣 单 项 
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要 停止 笔记 本 ,只 需 单 击 Stop 链接 ，SageMaker 将 需要 几 分 钟 的 时 间 才 能 停止 。 图 D-6 显示 
了 停止 笔记 本 的 操作 。 


Amazon SageMaker Notebook instances 
Q Search notebook instances 和 [| 
Name 了 Instance Creation time 了 Status v Actions 
machliba-ch02 ml.t2.medium May 21, 2018 11:29 UTC © InService Open (StopY 


单 击 Stop 
图 D-6 通过 单 击 Stop 链接 停止 笔记 本 





停止 笔记 本 实例 后 ， 可 以 通过 检查 Status 显示 为 Stopped 来 确认 笔记 本 实例 不 再 运行 ， 如 图 
D-7 所 示 。 


Amazon SageMaker Notebook instances 


Notebook instances 


Create notebook instance 


Q Search notebook instances 1 ©} 
Name v Instance Creation time 了 Status 了 Actions 
machliba-ch02 ml.t2.medium May 21, 2018 11:29 UTC © Stopped Start 








检查 状态 
图 D-7 验证 笔记 本 实例 已 停止 


恭喜 ， 你 已 成 功 停止 SageMaker 笔记 本 实例 并 删除 端点 。 这 样 可 以 避免 产生 不 必要 的 费用 。 








安 洲 Python 








在 过 去 的 几 年 里 , 在 计算 机 上 安装 Python 变 得 越 来 越 容易 。 如 果 你 使 用 Microsoft Windows， 
则 可 以 直接 从 Windows 应 用 程序 商店 安装 。 束 本 书 而 言 ， 你 可 以 接受 所 有 默认 设置 。 

如 有 果 你 使 用 的 是 macOS 或 Linux 系统 的 计算 机 , 则 可 能 已 安装 了 Python, 但 可 能 是 Python 2.7， 
而 不 是 Python 3.x。 要 安装 最 新 版 本 ,请 跳 转 到 Python 网 站 的 Download Python 页 面 。 

该 网 站 将 展示 一 个 Download Python 按钮 ， 该 按钮 应 该 设置 为 你 所 需 的 操作 系统 版 本 。 如 末 
未 检测 到 你 的 操作 系统 ， 页 面 下 方 有 指 癌 正确 版 本 的 链接 。 同 样 ， 就 本 书 而 言 ， 接 党 所 有 默认 设 
置 ， 然 后 回 到 第 8 章 。 








扩 木 改变 世界 ' 阅读 塑造 人 生 











， 才 人民 部 电 出 杉 福 
[EL 栎 inaemm 


利用 机 器 学 习 


开发 算法 交易 系统 


去 有 与 从 拓 学 习 的 美好 相通 ， 全 中 习 理 失 本 字 习 相关 天 这 


3 co 大 民 孝 电 出 刻 社 
中 国 工 信 和 出 版 集团 ”六 Sree 


实 
4 A Practical Guide to Ce s Delivery 


持续 交付 实战 











令 美 团 Al+O2O 智 慧 结晶 
。 机 器 学 习 算 法 落地 实践 
令 涵盖 搜索 、 推 荐 、 风 控 、 计 算 广 告 、 图 像 处 理 领域 


书号 : 978-7-115-48463-5 
定价 : 79.00 元 


利用 机 器 学 习 开发 算法 交易 系统 





4 金融 与 机 器 学 习 的 美好 相遇 ， 集 中 习 得 机 器 学 习 相 关 理论 
令 从 数据 他 取 到 系统 构建 实 操 ， 提 供 易于 掌握 的 学 习 指南 


书号 : 978-7-115-50404-3 
定价 : 49.00 元 


持续 交付 实战 





令 理论 与 实践 相 结 合 ， 建 立 持续 交付 流水 线 ， 为 软件 发 布 保驾 护航 


书号 : 978-7-115-53421-7 
定价 : 59.00 元 


令 模型 构建 和 部 署 双管齐下 ， 让 机 器 学 习 如 虎 添 恤 
令 采用 流行 的 Keras 库 和 Kubernetes 集 群 ， 将 人 工 智能 融入 现代 软件 开发 流程 


书号 : 978-7-115-55051-4 
定价 : 79.00 元 








全 


QQ 连接 


图 灵 读 者 官方 群 I: 218139230 
图 灵 读 者 官方 群 [[: 164939616 


图 灵 社 区 
iTuring.cn 
在 线 出 版 , 电子 书 ,《 码 农 》 杂 志 , 图 灵 访谈 


场景 化 
机 器 学 习 


Machine Learning for Business 








只 有 大 型 高 科技 公司 才 有 必要 使 用 机 
器 学 习 技 术 吗 ? 答案 当然 是 否定 的 。 在 新 
一 波 数 字 化 转型 沪 潮 中 ， 借 助 机 器 学 习 技 
术 为 业务 创新 赋 能 ， 这 成 了 几乎 所 有 公司 
可 以 甚至 必须 探索 的 方向 。 有 了 恰当 的 工 
具 ， 不 需要 高 深 的 数学 知识 或 专业 的 技术 
背景 ， 你 就 能 在 日 常 业 务 中 享受 机 器 学 习 
市 来 的 便利 。 


本 书 凝聚 了 作者 丰富 的 业务 自动 化 经 

， 以 虚拟 人 物 为 主线 ， 展 示 了 如 何在 客 
pt 客户 支持 等 业务 场景 中 应 用 机 器 
学 习 技术 ， 从 而 让 流程 更 快速 、 工 作 更 高 
效 、 决 策 更 明智 。 


慎 国 MANNING 


图 灵 社区 : iTuring.cn 
分 类 建议 : 计算 机 / 机 器 学 习 
人 民 邮 电 出 版 社 网 址 : www.ptpress.com.cn 


“对 公司 来 说 ， 机 器 学 习 几 乎 拥 
有 改进 一 切 的 潜力 。 这 本 书 无 疑 是 将 
机 器 学 习 带 入 业务 自动 化 场景 的 出 色 
实践 指南 。” 


一 一 费 良 宏 
AWS 首 席 开 发 者 布道 师 


“这 本 书 通过 现实 世界 中 的 例子 
介绍 了 机 器 学 习 ， 是 很 好 的 资源 。” 


-一 Shawn Eion Smith 
美国 宾夕法尼亚 州立 大 学 副教授 


“这 本 书 使 普通 的 业务 人 员 也 可 
以 使 用 人 工 智 能 。” 


一 一 Dhivya Sivasubramanian 
ScienceLogic 公 司 软 件 工程 师 


委 码 领取 
随 书 代码 资料 


1123 "5253 


a : 79.00 元 





